CVPR 2026，英伟达特斯拉Waymo一块听中国公司讲物理AI

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

率先实现物理AI闭环飞轮

量子位 | 公众号 QbitAI

2026 AI赛道最火的概念——物理AI！

自动驾驶公司在讲、车企在讲、大模型玩家在讲、投资人在讲……

概念成为共识，真正的分水岭才开始浮现：率先拿出完整技术栈、论文、代码，以及已经在路上跑着、在量产实车上验证的，到底是谁？

在今年的CVPR首次开设的“具身智能基座模型部署研讨会”上，这个问题终于“混沌初开”。

这场会议上，挤满了这个赛道的头号玩家：特斯拉、英伟达、Waymo，以及唯一一家受邀的中国企业——小鹏。

美国EV头部媒体Electrek主编Fred Lambert 在CVPR 2026开始前，就已经注意到小鹏刘先明和特斯拉Ashok Elluswamy将在全球顶会同台分享技术成果。

顶会上参与前沿AI话题讨论的多如牛毛，但能让特斯拉、Waymo、英伟达这样的学术圈产业界顶尖玩家全都坐下来认真听的，不多。

和英伟达特斯拉Waymo同台竞技，小鹏都讲了什么？

“具身智能基座模型部署研讨会”，在CVPR是第一届，但其实是“Embodied AI Workshop”系列的第七届。

这类论坛一般是特邀演讲，邀请学术界和工业界的顶尖专家，分享最新研究成果和前沿思考。今年的参与者包括Waymo、特斯拉、英伟达等等——全球物理AI的第一梯队。

△从左往右，左3：刘先明，小鹏集团通用智能中心负责人；

左5：Ashok Elluswamy，特斯拉AI 软件副总裁；

左6：Dragomir Anguelov，Waymo副总裁；

小鹏这边是由现任小鹏通用智能中心负责人刘先明参与本次的分享。

这也是小鹏第三次受邀在CVPR发表演讲。但与前两次不同，这是小鹏首次完整展示了世界模型技术图谱。

△小鹏物理世界基座模型技术图谱

演讲基于团队近期陆续发表的X-World、X-Foresight、X-Cache等一系列学术论文，系统解析了小鹏世界模型技术。

首先明确阐述了一个核心工作：小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型，世界模型与第二代VLA共同构成小鹏物理AI基模底座。

二者通过不同训练信号协同进化。

人类动作包含丰富的高层语义，隐性地编码了感知、推理、意图、风险判断、社交互动以及对物理世界的理解。

不过这类监督信号在时间上相对稀疏，它通常只能监督最终的行为结果，而难以覆盖促成这一行为过程中每一次潜在的物理状态转移。

而世界模型则是从世界本身中学习的。它不只是预测下一步动作，还可以预测未来状态、未来观测，或者潜在空间中的未来表征。

相比之下，世界模型获得的监督信号要密集得多：每一帧画面、每一次运动、每一次交互都可以成为训练信号，本质是借鉴了大语言模型中“下一个Token预测”的范式，通过在海量未标注视频上进行下一帧或下一状态的密集预测，逐步学会物理世界的动力学与因果结构。

真正工程落地层面，常见VLA和世界模型路线“针锋相对“，但小鹏的思路是将稀疏的人类意图与密集的物理预测相结合，使得模型不仅在学习“人类驾驶员会怎么做”，更在深度理解“物理世界接下来会发生什么”。

这种双重目标的并行演进，确保了系统在复杂环境下的可控性与安全性，也为自动驾驶系统赋予了更深层次的物理感知与逻辑推理能力。

“走VLA路线还是世界模型路线？”刘先明的回答是：小鹏物理世界基座模型，既是第二代VLA，也是世界模型。

回到物理AI，要真正了解学习客观世界的知识，既需要真实世界的物理规律、因果逻辑、长时序推演；也需要在虚拟世界中反复练习——验证策略、应对长尾、闭环优化。

世界模型与VLA的协同进化，真实的内涵其实是广义的数据驱动体系：从更大规模的优质数据中，萃取出模型的智能，包含对人的行为的理解和对世界知识的理解。

AI如果真的要在物理世界中行动，需要知道几件事：一是“如何行动”，二是理解“行动之后世界会如何变化”，同时根据世界可能的变化，继续调整自己的行动策略。这就是小鹏第二代VLA和世界模型分别负责的工作。

“如何行动”，是去年刘先明CVPR演讲的主旨，他介绍了小鹏第二代VLA的基础架构和训练方法。

关于“行动之后世界如何变化”，正是今年的演讲主题，也就是小鹏如何研发世界模型。也可以通过小鹏团队近期几篇重要论文来理解小鹏世界模型。

如何让AI理解环境、时空和因果？

刘先明认为，一个优秀的世界模型必须具备三大能力：主动思考、可控生成和长时序推演，这是智能的体现，也是世界模型能在自动驾驶领域应用的前提条件。小鹏研发团队近期密集发布的几篇技术报告，正好对应这几个关键能力。

X-World是基于视频扩散生成技术构建的可控多视角生成式世界模型，能在给定动作条件下生成符合物理约束的未来视频，同时在持续生成过程中保持良好的可控性与稳定性。已经投入到小鹏的闭环仿真测试、在线强化学习、数据生成等研发环节。

X-Foresight是一套基于预测式世界模型的视觉-动作因果预测网络，X-Foresight在架构上与VLA融为一体，在统一的token空间内联合预测未来的多视角画面与自车动作，为VLA的控车决策提供了核心支撑。它的预测式决策逻辑，倒逼模型“理解世界”，掌握车辆、行人运动规律与场景因果链条。

X-Cache是一个面向少步自回归世界模型的跨段块级缓存，能在基本不牺牲画质的前提下，减少约七成的重复计算，对世界模型的去噪主干实现最高约2.7倍的推理加速。

CVPR 2026，英伟达特斯拉Waymo一块听中国公司讲物理AI

作者gjqs

作者 gjqs

相关文章

天生多屏：中兴AI云电脑体验日，解锁数智生活新体验

英伟达版「MacBook Pro」曝光：老黄自研了CPU！

英博数科亮相CCIG 2026，首次公开EBFlex私有化算力管理平台

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑