CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

VLM- R1之后再次出手！全球首个端侧流式多模态来了！

henry 发自凹非寺

量子位 | 公众号 QbitAI

这CVPR也就刚过去没几天，会上还在热议的方向，就已经给一家杭州团队跑进了端侧！

发布全球首个面向物理世界的

端侧流式多模态模型系列

VLX主打真实世界的端侧与具身场景，总共三款模型，三天连发：

VLX-Flow：实时流式感知，让视频像水流一样持续输入，模型实时看、实时想、实时更新世界状态。

VLX-Seek：精准定位，从看见走向看清，快速锁定目标。

VLX-Go：行动决策，把感知和定位的结果转化成真实动作——该往哪走、怎么操作，一气呵成。

这三款模型连起来，不仅构成了多模态模型持续感知、精准定位、行动决策的能力闭环。

与此同时，其原生端侧设计也让它能够真正跑进手机、无人机、机器人这些端侧设备。

而这，也并不是Om AI第一次在VL（视觉语言）领域发力。

去年，他们推出了全网爆火的

作为全球首个将DeepSeek R1强化学习范式引入视觉语言模型的开源项目，上线12小时获得超过2000颗GitHub Star。

48小时登顶GitHub全球趋势榜，至今已斩获6000+Star。

这一次，他们交出的新答卷，是VLX。

一条通往物理世界的能力链

为了更好地理解VLX这次的技术路线，我们可以把它拆成两个关键词：

所谓流式多模态，就是让AI能够在物理世界中持续、实时地感知环境，并最终形成一条完整的能力链：

感知（Perception）→ 精准定位（Grounding）→ 行动（Action）。

它跟我们此前在语音助手里“听”到的流式多模态不同。

语音助手强调的是人与AI的实时交互，而VLX关注的，则是AI在物理世界中持续观察、持续判断，并最终驱动行动，完成从“看图”到“做事”的跨越。

这种定位的不同，其实反映的是VLM角色的转变。

等领域快速发展，VLM已经不再只是LLM的一个能力模块，而是在逐渐成为空间理解、视频理解乃至动作规划的新一代基础设施。

VLM不仅需要看图说话，更需要具备持续感知、精准定位和驱动行动的能力，从而为下游任务提供统一、精准的基座能力。

一个很直观的信号来自今年CVPR。

数据显示，VLM/多模态相关论文占比已经从去年的4.9%增长到10.6%，几乎翻倍，成为近年来增长最快的研究方向之一。

而在论文数量快速增长的背后，最值得关注的两个关键词，就是

实时感知（Streaming）

定位（Grounding）

（注：Grounding的核心就是让模型根据一句自然语言描述，准确找到图像或视频中对应的对象、区域和概念）

VLX的整套设计，也正是围绕这两个方向展开，并进一步把能力延伸到了最终的行动。

VLX-Flow：流式推理

首先是VLX-Flow，负责持续感知，解决的是看见。

在真实世界中，由于物体始终处于运动之中，环境、状态不断变化、视角切换也时刻发生。

一次性的观察，很难应对这样

的环境。因此，模型必须像人一样不断接收新信息、持续更新对环境的理解。

传统视频模型往往将整段视频切成帧，一次性送入模型做离线理解。

视频一长，不仅计算成本急剧上升，还容易丢失前文信息，难以支撑实时交互。

为解决这一问题，Flow采用了流式处理。

让画面像水流一样持续涌入，靠增量编码和缓存机制不断更新自己的视觉状态，既不用反复重算历史，也不会因为视频变长而失忆。

技术层面， Flow用Linear Attention替代标准Attention，并结合双层记忆机制，让视频流能够持续进入模型而不会因上下文增长导致显存爆炸。

也就是说，它不等视频播完再理解，而是一边看一边更新对环境的认知，必要时还能主动发起交互，并做到实时视频流下的低延迟响应。

不过，持续看只是第一步，模型还必须知道

VLX-Seek：精细感知

，负责精细感知，解决的是看得准。

以机器人为例，仅仅知道“前面有一把椅子”远远不够，它还需要准确知道目标

CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

作者gjqs

作者 gjqs

相关文章

光帆科技与腾讯出行服务达成战略合作开启新一轮预售

「斯隆奖」得主戴亮全职加盟复旦

连GitLab都开始裁程序员了

You missed

具身智能Skill时刻！英伟达开源机器人技能库，Jim Fan：范式变了2026-07-01

Claude Mythos让梁文锋决定融资2026-06-29

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑