τ0-WM：最大规模预训练的开源具身世界模型来了

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

17800小时的真机数据

henry 发自凹非寺

量子位 | 公众号 QbitAI

具身智能火了快两年，现在，终于有团队富裕到拿真机数据去砸预训练了。

这是啥概念？差不多相当于一台机器人，连续两年、一天24小时不停地被人类遥操作。

当所有人都以为真机数据是奢侈品，难以scaling，只能放在最后的微调阶段时。

刚刚，上海创智学院副教授、智元机器人首席科学家

全球最大规模的开源预训练具身世界模型

τ0-World Model（τ0-WM)

整个τ0-WM参数量达到

，预训练数据规模高达约3万小时。其中，

真机遥操作数据第一次成了绝对主力

，占到了1.78万小时。

而3万小时的预训练数据，是目前全球开源预训练具身世界模型中最大的。

τ0-WM不仅能像其他世界模型那样预测未来画面、生成动作。

更重要的是，它还结合了测试时计算（Test-Time Computation），让机器人在执行前对多个候选动作进行排序，选出最优方案，质量不够就调用模拟器修正后再执行。

基于这套方法；τ0-WM在四个长程精细操作任务，包括Toolbox（工具收纳）、School Bag（书包装物）、Badminton（羽毛球装盒）和Faucet（水管接头对接）的平均成功率超过了对标π0.5和Fast-WAM。

可以说，罗剑岚团队此前在后训练方面的持续投入，不仅攒出了足够规模的真机数据，也攒出了把这些数据用于大规模预训练的经验。

预训练和后训练这两条线，终于对齐了。

提议、模拟、评估，然后行动

过去几年，驱动机器人实现感知与控制的主流范式，大多是一种反应式的端到端策略：

神经网络看到画面，立刻输出动作。

这种类似于人类“条件反射”的方式，在抓取、放置等标准任务里已经非常成功。

但就像人类其实并不完全依赖肌肉记忆一样，机器人在面对接触密集、长程跨度、或者存在严重遮挡的复杂操作时，单纯依靠“看见场景就输出动作”的方式，也很容易导致不可逆的错误。

很多时候，一步错，后面可能就全错了。

所以，和许多世界模型方法一样，

选择让机器人在行动之前，先在脑子里“想象”一下：

如果自己执行了这个动作，未来会发生什么，环境会怎么变化。

但τ0-WM特别的地方在于，它不只“想一次”。

为了让机器人能够三思而后行，研究引入了Test-Time Computation（测试时计算），让机器人在真正执行前，可以多花一点时间，在内部“虚拟沙盘”里并行想象很多次，反复比较，甚至主动纠错。

也就是说，τ0-WM让机器人不再只是看到画面就立刻出手，而是像人一样，先在脑子里盘一遍哪种路线更靠谱，再决定真正怎么做。

某种程度上，这其实是在让机器人学会一种“慢思考”。

具体来说，τ0-WM的在线推理，分成三步。

首先，视频动作模型（VAM）会根据当前多视角观测、语言指令以及机器人状态，一次性采样出多组候选动作，同时生成对应的模糊未来画面。

这相当于机器人先在脑子里快速闪过几种可能的做法。

其次，动作条件视频模拟器会针对每组候选动作，进一步生成对应的多视角未来画面。

之所以是多视角，是因为真实机器人操作里，正面视角经常会被机械臂或物体挡住，所以模型必须还能“脑补”侧面、顶部等其他视角下的未来状态，才能真正判断动作后果。

最后，系统会先用RCS（Re-denoising Consistency Score）给动作打分：把候选动作重新加噪，再丢回模型重新去噪，观察重建误差。

τ0-WM：最大规模预训练的开源具身世界模型来了

作者gjqs

作者 gjqs

相关文章

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

100亿砸向人形，不如先让10万台机器狗走进家庭

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑