
\n

\n

\n
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
τ0-WM:最大规模预训练的开源具身世界模型来了
17800小时的真机数据
henry 发自 凹非寺
量子位 | 公众号 QbitAI
具身智能火了快两年,现在,终于有团队富裕到拿真机数据去砸预训练了。
这是啥概念?差不多相当于一台机器人,连续两年、一天24小时不停地被人类遥操作。
当所有人都以为真机数据是奢侈品,难以scaling,只能放在最后的微调阶段时。
刚刚,上海创智学院副教授、智元机器人首席科学家
全球最大规模的开源预训练具身世界模型
τ0-World Model(τ0-WM)
整个τ0-WM参数量达到
,预训练数据规模高达约3万小时。其中,
真机遥操作数据第一次成了绝对主力
,占到了1.78万小时。
而3万小时的预训练数据,是目前全球开源预训练具身世界模型中最大的。
τ0-WM不仅能像其他世界模型那样预测未来画面、生成动作。
更重要的是,它还结合了测试时计算(Test-Time Computation),让机器人在执行前对多个候选动作进行排序,选出最优方案,质量不够就调用模拟器修正后再执行。
基于这套方法;τ0-WM在四个长程精细操作任务,包括Toolbox(工具收纳)、School Bag(书包装物)、Badminton(羽毛球装盒)和Faucet(水管接头对接)的平均成功率超过了对标π0.5和Fast-WAM。
可以说,罗剑岚团队此前在后训练方面的持续投入,不仅攒出了足够规模的真机数据,也攒出了把这些数据用于大规模预训练的经验。
预训练和后训练这两条线,终于对齐了。
提议、模拟、评估,然后行动
过去几年,驱动机器人实现感知与控制的主流范式,大多是一种反应式的端到端策略:
神经网络看到画面,立刻输出动作。
这种类似于人类“条件反射”的方式,在抓取、放置等标准任务里已经非常成功。
但就像人类其实并不完全依赖肌肉记忆一样,机器人在面对接触密集、长程跨度、或者存在严重遮挡的复杂操作时,单纯依靠“看见场景就输出动作”的方式,也很容易导致不可逆的错误。
很多时候,一步错,后面可能就全错了。
所以,和许多世界模型方法一样,
选择让机器人在行动之前,先在脑子里“想象”一下:
如果自己执行了这个动作,未来会发生什么,环境会怎么变化。
但τ0-WM特别的地方在于,它不只“想一次”。
为了让机器人能够三思而后行,研究引入了Test-Time Computation(测试时计算),让机器人在真正执行前,可以多花一点时间,在内部“虚拟沙盘”里并行想象很多次,反复比较,甚至主动纠错。
也就是说,τ0-WM让机器人不再只是看到画面就立刻出手,而是像人一样,先在脑子里盘一遍哪种路线更靠谱,再决定真正怎么做。
某种程度上,这其实是在让机器人学会一种“慢思考”。
具体来说,τ0-WM的在线推理,分成三步。
首先,视频动作模型(VAM)会根据当前多视角观测、语言指令以及机器人状态,一次性采样出多组候选动作,同时生成对应的模糊未来画面。
这相当于机器人先在脑子里快速闪过几种可能的做法。
其次,动作条件视频模拟器会针对每组候选动作,进一步生成对应的多视角未来画面。
之所以是多视角,是因为真实机器人操作里,正面视角经常会被机械臂或物体挡住,所以模型必须还能“脑补”侧面、顶部等其他视角下的未来状态,才能真正判断动作后果。
最后,系统会先用RCS(Re-denoising Consistency Score)给动作打分:把候选动作重新加噪,再丢回模型重新去噪,观察重建误差。