


< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱
一段视频,生成无限训练场景
henry 发自 凹非寺
量子位 | 公众号 QbitAI
还在聊Sim2Real?现在机器人圈更火的是Real2Sim!
等机构联合发布全新Real2Sim系统——
SimFoundry只需一段真实世界视频,就能自动生成一个可以交互、训练、评测的机器人仿真环境。
而且可不光是3D场景重建这么简单。
SimFoundry还能在保持物体功能和Affordance不变的前提下,自动更换物体、调整场景布局,甚至生成新的操作任务。也就是说,一段真实视频,不再只能得到一个仿真场景,而是能够自动扩展出
几乎无限的数据生成空间
由此,SimFoundry不仅可以在仿真里训练机器人,还能较为可靠地预测不同机器人策略在现实中的真实表现。
更进一步,在SimFoundry生成的数据上训练出的策略,还能够
零样本部署到真实机器人
,在多步操作、双臂协作、带关节物体操作等多个任务上完成真实世界迁移。
一段视频,生成无限训练场景
SimFoundry 的核心贡献,在于打通了
场景生成、数据生成、策略评测和策略训练
的整个Real-to-Sim闭环。
一直以来,机器人策略的训练一直高度依赖真实世界数据,而真实机器人采集数据不仅昂贵、耗时,还很难规模化。
即便模型训练完成,真机测试同样受到场景有限、测试成本高等因素的制约。
正因如此,研究人员开始将
仿真(Simulation)
作为训练和评估机器人策略的一种可扩展替代方案。
借助自动化数据生成技术,可以以极低的人力成本合成大量多样、高质量的训练数据,不断提升机器人在真实世界中的泛化能力。
与此同时,越来越多研究也发现,只要仿真环境足够逼真,其评测结果与真实世界的机器人表现往往具有很强的一致性。
不过,新的问题又出现了。
虽然仿真能够提供近乎无限的数据,但搭建一个具备真实几何、物理属性和交互能力的仿真环境,本身仍然需要大量人工建模。
Real-to-Sim
逐渐成为具身智能领域的热门方向。
简单来说,Real-to-Sim希望利用3D重建和生成模型,将真实世界快速转换成支持物理交互的仿真就绪(Sim-ready)环境,从而大幅降低人工搭建仿真场景的成本。
但问题在于,已有的Real-to-Sim方案往往只能解决其中一个环节:有的擅长重建3D场景,却无法生成训练数据;
有的能够进行策略评测,却依赖大量人工配置,也难以扩展到丰富的场景和任务。
基于此,SimFoundry 的思路就是把场景构建、数据生成、策略评测和策略训练串成了一条完整流水线。
整个系统主要完成三件事:
自动重建可交互、可仿真的数字孪生(Digital Twin);
自动扩展物体、场景和任务三个层面的数字表亲(Digital Cousins),持续生成训练数据;
利用这些仿真环境同时完成策略评测和策略训练,形成从真实世界到仿真、再回到真实世界的完整闭环。
(注:数字孪生(Digital Twin)是对真实场景的精确复刻;数字表亲(Digital Cousins)则保持场景的功能和交互方式不变,但会对物体、布局或任务进行合理变化。)
为了实现这一目标,SimFoundry设计了一套三阶段Pipeline。
三阶段pipeline
整个SimFoundry的流程并不复杂,可以概括成三个阶段:
Extraction(提取)→Generation(生成)→Augmentation(增强)
先理解真实世界,再搭建数字世界,最后批量创造新的数字世界
第一步:Extraction(提取)——理解真实场景。
系统输入一段普通RGB视频后,首先利用深度估计恢复三维点云,再通过视觉语言模型(VLM)和SAM 3等分割模型,将场景中的物体逐个识别、分割出来。
每提取一个物体,就利用图像修复(Inpainting)将其从画面中移除,继续寻找下一个目标,直到完成整个场景解析。
第二步:Generation(生成)——搭建数字孪生。
对于提取出的每个物体,SimFoundry会利用2D-to-3D模型生成三维网格,并结合FoundationPose等模型恢复其真实位姿;对于抽屉、柜门等关节物体,还会自动推导关节结构。
同时,系统进一步补充质量、摩擦力等物理属性,生成碰撞模型并修复穿模问题,最终导出可直接运行于IsaacLab等物理引擎中的仿真场景,完成Digital Twin(数字孪生)的构建。