


< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
CVPR 2026,英伟达特斯拉Waymo一块听中国公司讲物理AI
率先实现物理AI闭环飞轮
量子位 | 公众号 QbitAI
2026 AI赛道最火的概念——物理AI!
自动驾驶公司在讲、车企在讲、大模型玩家在讲、投资人在讲……
概念成为共识,真正的分水岭才开始浮现:率先拿出完整技术栈、论文、代码,以及已经在路上跑着、在量产实车上验证的,到底是谁?
在今年的CVPR首次开设的“具身智能基座模型部署研讨会”上,这个问题终于“混沌初开”。
这场会议上,挤满了这个赛道的头号玩家:特斯拉、英伟达、Waymo,以及唯一一家受邀的中国企业——小鹏。
美国EV头部媒体Electrek主编Fred Lambert 在CVPR 2026开始前,就已经注意到小鹏刘先明和特斯拉Ashok Elluswamy将在全球顶会同台分享技术成果。
顶会上参与前沿AI话题讨论的多如牛毛,但能让特斯拉、Waymo、英伟达这样的学术圈产业界顶尖玩家全都坐下来认真听的,不多。
和英伟达特斯拉Waymo同台竞技,小鹏都讲了什么?
“具身智能基座模型部署研讨会”,在CVPR是第一届,但其实是“Embodied AI Workshop”系列的第七届。
这类论坛一般是特邀演讲,邀请学术界和工业界的顶尖专家,分享最新研究成果和前沿思考。今年的参与者包括Waymo、特斯拉、英伟达等等——全球物理AI的第一梯队。
△从左往右,左3:刘先明,小鹏集团通用智能中心负责人;
左5:Ashok Elluswamy,特斯拉AI 软件副总裁;
左6:Dragomir Anguelov,Waymo副总裁;
小鹏这边是由现任小鹏通用智能中心负责人刘先明参与本次的分享。
这也是小鹏第三次受邀在CVPR发表演讲。但与前两次不同,这是小鹏首次完整展示了世界模型技术图谱。
△小鹏物理世界基座模型技术图谱
演讲基于团队近期陆续发表的X-World、X-Foresight、X-Cache等一系列学术论文,系统解析了小鹏世界模型技术。
首先明确阐述了一个核心工作:小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型,世界模型与第二代VLA共同构成小鹏物理AI基模底座。
二者通过不同训练信号协同进化。
人类动作包含丰富的高层语义,隐性地编码了感知、推理、意图、风险判断、社交互动以及对物理世界的理解。
不过这类监督信号在时间上相对稀疏,它通常只能监督最终的行为结果,而难以覆盖促成这一行为过程中每一次潜在的物理状态转移。
而世界模型则是从世界本身中学习的。它不只是预测下一步动作,还可以预测未来状态、未来观测,或者潜在空间中的未来表征。
相比之下,世界模型获得的监督信号要密集得多:每一帧画面、每一次运动、每一次交互都可以成为训练信号,本质是借鉴了大语言模型中“下一个Token预测”的范式,通过在海量未标注视频上进行下一帧或下一状态的密集预测,逐步学会物理世界的动力学与因果结构。
真正工程落地层面,常见VLA和世界模型路线“针锋相对“,但小鹏的思路是将稀疏的人类意图与密集的物理预测相结合,使得模型不仅在学习“人类驾驶员会怎么做”,更在深度理解“物理世界接下来会发生什么”。
这种双重目标的并行演进,确保了系统在复杂环境下的可控性与安全性,也为自动驾驶系统赋予了更深层次的物理感知与逻辑推理能力。
“走VLA路线还是世界模型路线?”刘先明的回答是:小鹏物理世界基座模型,既是第二代VLA,也是世界模型。
回到物理AI,要真正了解学习客观世界的知识,既需要真实世界的物理规律、因果逻辑、长时序推演;也需要在虚拟世界中反复练习——验证策略、应对长尾、闭环优化。
世界模型与VLA的协同进化,真实的内涵其实是广义的数据驱动体系:从更大规模的优质数据中,萃取出模型的智能,包含对人的行为的理解和对世界知识的理解。
AI如果真的要在物理世界中行动,需要知道几件事:一是“如何行动”,二是理解“行动之后世界会如何变化”,同时根据世界可能的变化,继续调整自己的行动策略。这就是小鹏第二代VLA和世界模型分别负责的工作。
“如何行动”,是去年刘先明CVPR演讲的主旨,他介绍了小鹏第二代VLA的基础架构和训练方法。
关于“行动之后世界如何变化”,正是今年的演讲主题,也就是小鹏如何研发世界模型。也可以通过小鹏团队近期几篇重要论文来理解小鹏世界模型。
如何让AI理解环境、时空和因果?
刘先明认为,一个优秀的世界模型必须具备三大能力:主动思考、可控生成和长时序推演,这是智能的体现,也是世界模型能在自动驾驶领域应用的前提条件。小鹏研发团队近期密集发布的几篇技术报告,正好对应这几个关键能力。
X-World是基于视频扩散生成技术构建的可控多视角生成式世界模型,能在给定动作条件下生成符合物理约束的未来视频,同时在持续生成过程中保持良好的可控性与稳定性。已经投入到小鹏的闭环仿真测试、在线强化学习、数据生成等研发环节。
X-Foresight是一套基于预测式世界模型的视觉-动作因果预测网络,X-Foresight在架构上与VLA融为一体,在统一的token空间内联合预测未来的多视角画面与自车动作,为VLA的控车决策提供了核心支撑。它的预测式决策逻辑,倒逼模型“理解世界”,掌握车辆、行人运动规律与场景因果链条。
X-Cache是一个面向少步自回归世界模型的跨段块级缓存,能在基本不牺牲画质的前提下,减少约七成的重复计算,对世界模型的去噪主干实现最高约2.7倍的推理加速。