< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

世界模型混战,Momenta率先冲刺IPO

AI司机收入3年涨42倍

没想到如此之快,也没想到这“物理AI第一股”,不是出尽风头的具身智能创业公司,而是——

之前以自动驾驶知名:智能辅助驾驶市占率No.1、跨国巨头车企共同的选择、技术商业上有资格和华为“五五开”……

现在,Momenta在IPO进程中曝光了更大的雄心——物理AI。

世界模型,尚未收敛的技术战争

在关注Momenta IPO进程之前,有必要先厘清一个更大的背景:

世界模型(World Model)

, 现阶段被公认为物理AI核心基座模型。

但它也是2025年以来AI领域最热也最混乱的概念。

OpenAI Sora出来的时候被称作“世界模拟器”;Google DeepMind Genie让你在生成的画面里走来走去,也叫世界模型;机器人公司在做世界模型;NVIDIA说Omniverse是世界模型的基础设施。

都在用同一个词,但各自说的可能不是同一件事。

这就使得世界模型的主流技术路线出现四类:

生成式视频路线:以OpenAI Sora、视频生成公司为代表,追求“像素级逼真”;

交互式世界路线:以Google DeepMind Genie为代表,能根据用户操作实时生成可交互环境;

空间智能路线:以李飞飞(World Labs)为代表,把世界模型视为可生成、可互动的3D表示;

联合嵌入预测(JEPA)路线,Yann LeCun主张在抽象表示层预测世界下一步,作为智能体规划的基础,避免在像素层面“浪费算力”。

四类路线,目标都是“理解物理世界”,但路径截然不同。有的追求画面好看,有的追求规则正确,有的追求三维结构,有的追求抽象预测。

前几天,李飞飞还发表长文,用“杯子放在桌上”解释世界模型本质:真正理解世界的模型,应该能从任何角度渲染它,模拟它被推倒后的全部物理过程,也能规划一只手把它拿起来。三种能力共享同一套底层理解——也就是最关键的

LeCun则走得更远,对整个大语言模型范式进行了否定:本质上是统计学的模式匹配器,它只是在预测下一个单词,并不真正理解物理世界。

这个区别,可能是AI能否真正理解世界,还是“假装模仿”世界的核心判断标准。

LeCun离开Meta后自己的AI创业公司AMI Labs,初期只有12名员工的时候,就拿到了比很多科技独角兽整个生命周期还多的钱。

当然也包括李飞飞的World Labs。

资本在用真金白银表态:世界模型这条路线,值得重注

实际上都是世界模型最早的“试金石”和落地案例。

世界模型的核心功能,是基于行动者提出的想象动作序列,预测未来可能的世界状态。

这个定义放在自动驾驶场景中几乎天然契合——车辆每时每刻都在做“动作→预测世界状态→再动作”的循环。

所以物理AI的“GPT时刻”降临前夜,世界模型作为物理AI的核心基座模型,被认为是激发这一时刻的关键突破口。

Momenta的物理AI答案

两个月前,Momenta的世界模型,也交卷了:

R7世界模型实现量产,首发搭载的是上汽大众ID. ERA 9X。

对于用户端来说,买到的量产车上搭载的R7(车端经蒸馏后的模型)一出生就不是一张白纸,而是一个已经在极多困难场景里历练过的“老司机”。

依托搭载其系统的量产车,积累了超过120亿公里的真实行驶里程,并从中提炼出超1亿段“黄金数据”。

“天生下限高”——起步就站在别人摸爬滚打好几年才能达到的位置上。

世界模型同时代表“突破上限”——现实中可能数年、数万公里才碰到一次的险情,在R7训练里,可以反复训练,甚至可以举一反三,改变边界条件进行“加练”。

高上限意味着它遇到真正的“地狱场景”时,不会手忙脚乱,能够比人类司机更合理、更平稳通过复杂路段。

据CIC灼识咨询数据,2025年3月至2026年2月,中国第三方城市NOA供应商市场中,搭载Momenta系统的量产车销量市占率达65%,行业居首。

增速更值得重视:现今最快不到40天即可完成10万台交付。

同样,从R7量产开始,MomentaCEO

将公司定位为“物理AI基座模型的构建者”——打造能理解物理规律、推演世界演变的通用世界模型。

技术上,Momenta给出了这样的逻辑:

R7世界模型的技术架构分为三个层次,第一层是世界模型预训练。通过海量真实驾驶数据,将物理规律、常识与因果关系压缩进模型,形成基础认知。

第二层是世界模型仿真。系统利用生成模型推演周围环境的演变,对极端罕见的长尾场景进行闭环测试。

第三层是在模型中开展强化学习。系统通过奖惩机制反复试错,在数千万次虚拟交互中推演。

三层迭代,系统从“模仿学习”走向“想象与探索”,在虚拟世界中经历千万次推演,自主习得在复杂博弈中做出最优决策的能力,让模型在罕见极端场景下的表现超越人类的水平。

R7超越自动驾驶之处在于,既不是单纯的“车端实时模型”,也不仅仅是传统意义上的“基座大模型”

物理AI时代的基座模型,不只包含语言,而是多模态的

,为AI走出屏幕,认知真实物理世界提供基础。

只不过现阶段能让物理AI的数据Scaling和商业Scaling形成正向反馈的,最高价值场景就是自动驾驶。

作者 gjqs