英伟达开始搞机器人自己研究机器人那套了…

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

为了让你烧token，英伟达已经卷到机器人身上了

henry 发自凹非寺

量子位 | 公众号 QbitAI

好好好，又给英伟达这家伙，找到了新的烧token的方式（doge）

刚刚，英伟达、CMU和Berkeley联合推出具身智能Autoresearch框架——

简单来说，ENPIRE就是让AI agent自己做机器人研究，让8个Coding Agent，各自控制一台双臂机器人。

Agent们会自己读论文、改算法、训练策略、部署实验、分析结果、总结经验，不满意再换个思路重来。

GEAR的研究员们不用盯着屏幕调参数，只需要第二天早上过来看报告。

在最具代表性的Pin Insertion任务中，仅用了3小时，机器人把针插进4毫米孔洞的成功率从0一路拉到99%。

全程无人类参与，项目负责人之一的

GEAR实验室的一部分现在已经在彻夜自我改进了。我们只需要早上来读报告。

高情商：彻夜自我改进；低情商：没日没夜的烧token。

具身智能研究的harness

先说明一点，ENPIRE并不是让Agent直接写控制代码操纵机器人，它更像一个机器人研究员，需要在真实世界里重置实验场景、检索文献、实施想法、验证结果、分析问题，优化下一轮迭代。

与类似code as policy的方法不同，ENPIRE的最终产物的不是一段控制脚本，而是一个真正能够部署到机器人上的Policy。

这种给现实环境搭建自动化框架的事儿，之所以难是因为现实世界不像代码世界。

在代码世界，Agent写错代码了，大不了删掉重来；实验跑崩了，重新启动即可。

但机器人研究不一样，实验失败之后，物体会歪掉，场景会乱掉，机器人甚至可能把东西碰飞。

如果每轮实验都要靠研究员手动复位、记录结果、整理数据，那么Agent根本不可能24小时连续做研究。

所以ENPIRE做的事情，本质上是给AI研究员搭建一套自动化实验台。

Harness Framework

可以理解为，它给Coding Agent配齐了一整套做物理实验所需的基础设施。

这套基础设施由四部分组成，也正好对应ENPIRE这个名字：

EN（Environment）环境模块

：负责搭建实验环境，包括安全边界、自动复位和自动评分。

PI（Policy Improvement）策略改进

：Agent根据任务目标提出新方案。行为克隆、强化学习、启发式规则，甚至几种方法混搭，全都可以尝试。

R（Rollout）——部署测试

：把新策略部署到真实机器人上执行，记录轨迹、视频和传感器信号。

E（Evolution）——进化

：多Agent协作的核心。8个Agent各自占用一台机器人，通过Git共享代码，互相吸收有效方案，淘汰失败路线。

四个模块连起来之后，就形成了一个完整闭环：

提出想法 → 训练策略 → 真机测试 → 自动评分 → 总结经验 → 再提出新想法。

整个过程不需要人工值守，Agent自己负责做实验，也自己负责从实验里学习。

而其中最关键的一环，其实是Environment模块。因为它解决的是具身智能研究里最令人头疼的问题：

怎么让实验自动跑起来。

在仿真环境里，复位往往只需要一句：env.reset()

但现实世界没有env.reset()。

英伟达开始搞机器人自己研究机器人那套了…

作者gjqs

作者 gjqs

相关文章

天生多屏：中兴AI云电脑体验日，解锁数智生活新体验

英伟达版「MacBook Pro」曝光：老黄自研了CPU！

英博数科亮相CCIG 2026，首次公开EBFlex私有化算力管理平台

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑