刚刚，全球⾸个“事件级预测”具身智能世界模型来了！

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

从按帧学动作，到按「事件」理解世界

量子位 | 公众号 QbitAI

让机器人把杯子递过去——

这个看似简单的任务，对当前的具身大模型来说，却是一场逐帧填空的考试：

预测0.1秒后手在哪、0.2秒后手在哪……

把一个完整动作切成几十张几乎雷同的画面，让模型一帧一帧去学。

结果，模型记住的是「手指每帧挪几毫米」，而不是「把杯子抓住」这个目标，换个杯子、换张桌子，节奏稍变，立刻翻车！！

刚刚，自变量机器人团队带来全新解法——

发布全球首个「事件级预测」具身智能世界模型WALL-WM。

WALL-WM把世界模型的预测单位从时间帧换成了

模型不再问0.1秒后是什么样，而是直接想象抓住杯子那一刻是什么样，跳过中间所有冗余帧，并基于这个想象同步生成抵达它的动作。

由于「事件」本身就是跨场景、跨物体的通用语义抽象，WALL-WM在跨场景泛化上也展现出明显更稳的表现。目前，这一模型已在论文

《WALL-WM: Carving World Action Modeling at the Event Joints》

以后小机器人们干活儿，也能更像人类一样抓重点，灵活应对物理世界的各种抓马情况了！

从按帧学动作，到按「事件」理解世界

这几年，主流VLA模型基本都在沿着一条路往前走：

给模型一帧当前画面，再加一句语言指令，让它预测接下来一段

这个做法当然很工程化，也确实方便训练，但问题在于真实世界的机器人动作，并不会乖乖按照固定时间窗口发生。

比如让机器人抓起一个杯子，它里面至少包含接近、接触、闭合夹爪、提起、移动、放下几个阶段。

每个阶段的物理状态都不一样，接触前和接触后更是完全不同的控制问题。

针对这个bug，自变量机器人在论文中提出了一个非常「反常识」的行业判断——

文本、视觉、动作这三类信息，其实是天然没办法「完全对齐」的

论文中提到，文本、视觉、动作在高维空间里有不同的

文本是高层、低熵的语义意图；视觉是连续演化的高维观察；动作则被物理世界强约束，对接触状态、时间精度和微小扰动都极其敏感。

如果直接把三者压进同一个共享空间，预训练表示很容易偏离原本的先验几何！！

所以说，这也是为啥目前行业内很多VLA在真机上视觉-语言-动作对齐的表现，远不如其底座VLM应有的⽔平…..

既然传统VLA问题这么多，自变量团队也重新追问了一个更为根本的问题：机器人到底该按什么单位学会一个动作？

基于这个思路，团队出了

世界模型，让机器人按event-centric的方式去训练和执行。

所谓的event-centric，简单说就是把机器人任务切在真正有语义、有物理动作变化的「事件边界」上，然后在这些事件数据上进行模型训练。

比如伸手、抓取、抬升、移位、放置，都可以看成一个个围绕动作展开的语义事件。

它能被语言说清楚，也能被视频完整记录，还能落到机器人的动作轨迹上，这样就可以把语言、画面和动作真正串了起来～

WALL-WM泛化能力更强的关键也就在这里：让机器人围绕事件理解世界变化，再把这种理解转成可执行动作。

而这，才是具身智能「世界模型」应有的形态。

WALL-WM的核心链路：先预演，再执行

具体来说，WALL-WM做的不是直接从画面生成动作。

而是先让模型理解「下一个事件会让世界怎么变」，再把这种变化翻译成机器人该执行的轨迹。

背后是一整套从感知到控制的路径重构，自变量团队将其拆成了三层：

刚刚，全球⾸个“事件级预测”具身智能世界模型来了！

作者gjqs

作者 gjqs

相关文章

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑

云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑