世界模型混战，Momenta率先冲刺IPO

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

AI司机收入3年涨42倍

没想到如此之快，也没想到这“物理AI第一股”，不是出尽风头的具身智能创业公司，而是——

之前以自动驾驶知名：智能辅助驾驶市占率No.1、跨国巨头车企共同的选择、技术商业上有资格和华为“五五开”……

现在，Momenta在IPO进程中曝光了更大的雄心——物理AI。

世界模型，尚未收敛的技术战争

在关注Momenta IPO进程之前，有必要先厘清一个更大的背景：

世界模型（World Model）

，现阶段被公认为物理AI核心基座模型。

但它也是2025年以来AI领域最热也最混乱的概念。

OpenAI Sora出来的时候被称作“世界模拟器”；Google DeepMind Genie让你在生成的画面里走来走去，也叫世界模型；机器人公司在做世界模型；NVIDIA说Omniverse是世界模型的基础设施。

都在用同一个词，但各自说的可能不是同一件事。

这就使得世界模型的主流技术路线出现四类：

生成式视频路线：以OpenAI Sora、视频生成公司为代表，追求“像素级逼真”；

交互式世界路线：以Google DeepMind Genie为代表，能根据用户操作实时生成可交互环境；

空间智能路线：以李飞飞（World Labs）为代表，把世界模型视为可生成、可互动的3D表示；

联合嵌入预测（JEPA）路线，Yann LeCun主张在抽象表示层预测世界下一步，作为智能体规划的基础，避免在像素层面“浪费算力”。

四类路线，目标都是“理解物理世界”，但路径截然不同。有的追求画面好看，有的追求规则正确，有的追求三维结构，有的追求抽象预测。

前几天，李飞飞还发表长文，用“杯子放在桌上”解释世界模型本质：真正理解世界的模型，应该能从任何角度渲染它，模拟它被推倒后的全部物理过程，也能规划一只手把它拿起来。三种能力共享同一套底层理解——也就是最关键的

LeCun则走得更远，对整个大语言模型范式进行了否定：本质上是统计学的模式匹配器，它只是在预测下一个单词，并不真正理解物理世界。

这个区别，可能是AI能否真正理解世界，还是“假装模仿”世界的核心判断标准。

LeCun离开Meta后自己的AI创业公司AMI Labs，初期只有12名员工的时候，就拿到了比很多科技独角兽整个生命周期还多的钱。

当然也包括李飞飞的World Labs。

资本在用真金白银表态：世界模型这条路线，值得重注

实际上都是世界模型最早的“试金石”和落地案例。

世界模型的核心功能，是基于行动者提出的想象动作序列，预测未来可能的世界状态。

这个定义放在自动驾驶场景中几乎天然契合——车辆每时每刻都在做“动作→预测世界状态→再动作”的循环。

所以物理AI的“GPT时刻”降临前夜，世界模型作为物理AI的核心基座模型，被认为是激发这一时刻的关键突破口。

Momenta的物理AI答案

两个月前，Momenta的世界模型，也交卷了：

R7世界模型实现量产，首发搭载的是上汽大众ID. ERA 9X。

对于用户端来说，买到的量产车上搭载的R7（车端经蒸馏后的模型）一出生就不是一张白纸，而是一个已经在极多困难场景里历练过的“老司机”。

依托搭载其系统的量产车，积累了超过120亿公里的真实行驶里程，并从中提炼出超1亿段“黄金数据”。

“天生下限高”——起步就站在别人摸爬滚打好几年才能达到的位置上。

世界模型同时代表“突破上限”——现实中可能数年、数万公里才碰到一次的险情，在R7训练里，可以反复训练，甚至可以举一反三，改变边界条件进行“加练”。

高上限意味着它遇到真正的“地狱场景”时，不会手忙脚乱，能够比人类司机更合理、更平稳通过复杂路段。

据CIC灼识咨询数据，2025年3月至2026年2月，中国第三方城市NOA供应商市场中，搭载Momenta系统的量产车销量市占率达65%，行业居首。

增速更值得重视：现今最快不到40天即可完成10万台交付。

同样，从R7量产开始，MomentaCEO

将公司定位为“物理AI基座模型的构建者”——打造能理解物理规律、推演世界演变的通用世界模型。

技术上，Momenta给出了这样的逻辑：

R7世界模型的技术架构分为三个层次，第一层是世界模型预训练。通过海量真实驾驶数据，将物理规律、常识与因果关系压缩进模型，形成基础认知。

第二层是世界模型仿真。系统利用生成模型推演周围环境的演变，对极端罕见的长尾场景进行闭环测试。

第三层是在模型中开展强化学习。系统通过奖惩机制反复试错，在数千万次虚拟交互中推演。

三层迭代，系统从“模仿学习”走向“想象与探索”，在虚拟世界中经历千万次推演，自主习得在复杂博弈中做出最优决策的能力，让模型在罕见极端场景下的表现超越人类的水平。

R7超越自动驾驶之处在于，既不是单纯的“车端实时模型”，也不仅仅是传统意义上的“基座大模型”

物理AI时代的基座模型，不只包含语言，而是多模态的

，为AI走出屏幕，认知真实物理世界提供基础。

只不过现阶段能让物理AI的数据Scaling和商业Scaling形成正向反馈的，最高价值场景就是自动驾驶。

世界模型混战，Momenta率先冲刺IPO

作者gjqs

作者 gjqs

相关文章

重估比亚迪，从智驾开始

高通点赞广汽埃安N60智驾大赛获亚军，文远知行WRD 3.0亮相高通峰会

一个广告营销老炮，率先冲刺A股无人驾驶第一股

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑