


< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
世界模型的新用途:不做选手,去当裁判
量子位 | 公众号 QbitAI
眼下具身赛道都在卷世界模型,都在抢着做机器人的“大脑”。
的世界模型发布,不当具身大脑,却做机器人开发的基础设施,在市面上鲜有同类。
它瞄准的是具身智能行业的两个痛点。
一个是benchmark。如今许多评测基准的公信力不够强,它想更客观地评测VLA和世界模型,做公正的“裁判”。
另一个是sim-to-real的gap。传统仿真器里跑出来的分数很漂亮,搬到真实场景却对不上,它想做机器人训练的“场地”。
开发Uranus的团队来自地平线分拆而来的机器人公司地瓜机器人。这家公司做的是“卖铲”生意,定位是机器人软硬件通用底座提供商。
虽然同行都在盯着机器人的大脑,但地瓜机器人的判断是:脑子要变聪明,先得有一个能让它反复试错、稳定考试、还能复盘成绩的平台。
用途一:当具身模型的裁判
先来看Uranus的第一个用途:benchmark。
现在机器人常用的benchmark有两种。第一种是
,把训好的模型搬上真实机械臂,在固定的场景和任务里反复跑几十上百次,最后统计成功率。
它的缺点很明显:一是效率低,验证一个模型,得有人守在机器旁边,反复重置环境,又慢又贵。
另一个是难以复现。哪怕环境看起来一样,每次物体怎么摆、光照怎么变,都很难控制。一篇论文发表后,其他实验室很难复现其中的评测结果。
第二种benchmark是
,在虚拟环境里跑任务。
它的优点是快、便宜、能复现;但麻烦是sim-to-real gap,仿真里的评测分数很高,一搬到真机就要打折,分数和真实能力无法匹配。
而Uranus走的是第三条路。
用户训练好模型后,Uranus能根据模型输出的动作一步步生成环境反馈,再得到成功率、轨迹偏差等指标。
这样做的好处是:迭代效率比真机评测高很多,能控制变量,还能稳定复现;评测分数和模型在真实场景中的实际能力呈正相关,sim-to-real的gap很小。
地瓜机器人想把Uranus做成业内最有公信力的benchmark之一。
地瓜机器人算法副总裁隋伟说,现在benchmark的“刷榜”行为总引起争议,是因为部分榜单依赖的学术指标与真实应用之间仍存在一定距离,相关数据也未必能充分反映真实场景中的复杂性。
而Uranus并不会刻意避免刷榜,关键是要保证刷出来的分数有意义,得分真的能匹配模型的实际能力。
用途二:支持机器人训练的仿真器
除了当裁判,Uranus还有一个身份:机器人仿真器,主要用在manipulation(操作)领域。
传统的物理仿真器,缺点是:贵、慢、效率低。手工构建仿真场景是一项浩大的工程,3D建模、材质设定、物理参数调校……每一个新环境都需要数天甚至数周的搭建。
就算费了这么大劲,渲染出来的画面也总是不够真实。这就引出了传统仿真器的另一个缺点:sim-to-real gap。一些仿真器为了省事,会粗暴简化物理规则,有时甚至连最基本的能量守恒都不满足。
而Uranus并不是先手工还原一个3D世界,而是直接从数据里学习:机器人执行这个动作后,下一帧画面会变成什么。
在Uranus里搭场景很简单,给定几帧参考图像、机器人关节状态、相机参数和一句文本描述,模型就能把对应的场景生成出来。
画面越逼真,仿真器和真实场景之间的鸿沟就越小。团队说,Uranus生成的视频,肉眼基本分不出是实拍还是生成的。
所以Uranus是怎么做到的?
其中最关键的技术能力是:
。它一帧一帧生成视频,而不是一口气生成一整段。
普通视频生成模型一次性生成整段视频,中间不能打断,也不能根据新的动作改写后续内容。
但机器人不能这样工作。
模型看到当前画面,输出一个动作。动作执行后,环境发生变化,机器人再根据新的画面输出下一步动作。这个循环必须一步一步发生。只要中间断开,强化学习和评测就都完不成。
所以Uranus每次只生成下一帧。新生成的帧会立刻进入历史窗口,和下一步动作一起成为模型输入。人也可以在任意时刻接管,改变动作指令,让后续画面沿着新的轨迹继续生成。
打个比方,Seedance等视频生成模型生成的,像是按剧本拍摄的电影;Uranus生成的,则更像是一个能实时交互的游戏。