< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型

量子位 | 公众号 QbitAI

每天一睁眼,都有滚烫的热钱砸向具身智能领域。今天也不例外。

量子位获悉,具身智能公司

戴盟机器人(Daimon Robotics)新近完成亿元A轮融资

,本轮融资由汇川产投和中国电信联合投资。

这笔融资值得留意,不单是具身智能又拿到了投资。

关键在于具身智能发展技术方向的取舍。

因为在视觉、多模态、VLA、世界模型等被行业轮番热议之时,

戴盟落脚在了触觉这条路上

与此同时量子位还获悉了关于这家公司的另一则消息——

阿里通义实验室前多模态研究专家原玮浩加入戴盟,担任首席AI科学家

原玮浩博士毕业于香港科技大学,研究工作主要面向具身人工智能(VLA/WAM/强化学习/触觉智能/人形运动)和三维视觉(重建/生成/世界模型),拥有将多模态大模型、世界模型迁移至机器人物理操作的前沿经验。

他在NeurIPS、ICLR、CVPR、ICRA等人工智能顶会上发表论文40余篇,包括多篇Oral论文。其主导的NeWCRFs算法,曾登顶国际权威榜单KITTI。

后续发力重点:物理世界模型

戴盟方面表明,本轮融资到账后主要会投向三件事。

含物理交互信息的超大规模数据集;

真实场景下的数据飞轮和商业闭环。

戴盟首席AI科学家原玮浩的说法是,这三件事本质上是一件事的三个面,“数据是燃料,物理世界模型是引擎,飞轮决定引擎能不能持续跑起来”。

物理世界模型会是戴盟后续布局的重中之重

,团队招人、加码算力、打磨模型,所有规划全都围着这件事落地。

戴盟对物理世界模型有着自成一派的定义。

“我们的物理世界模型,它以多模态接触状态为条件来预测未来。”不同于常规模型只预判画面帧变化,它关注的不只是下一帧画面会变成什么样,还包括下一刻的触觉信号、接触状态,以及这次操作会不会失败、为什么失败、该怎么修。

原玮浩总结道:“简单来说,视频世界模型在预测画面,我们在预测物理交互。”

为了实现这件事,戴盟把物理接触拆成两层。

第一层是认知层,让触觉和视觉、语言、几何等模态在同一表征空间里互相映射。

比如桌上同时放着一颗葡萄和一颗同样大小的玻璃珠,人不需要真正抓起来,就知道两者不能用同一套策略。

葡萄要轻,要用指腹包裹;玻璃珠可以更用力,用指尖捏起。

这背后其实是视觉直接映射成了触觉预判。

第二层是执行层,有两套机制在同时运行。

一套是百赫兹级的高频触觉伺服,类似脊髓反射,不经过上层推理,物体刚开始产生滑移趋势的那一刻,补偿动作就已经发出了,新的视觉帧还没产生出来。

原玮浩说,这种毫秒级的边缘力控,纯视觉模型根本来不及反应。

另一套是物理世界推理,模型会持续预测未来的接触状态,在失误真正发生之前提前给出修正策略。

这两套机制分别对应毫秒级反应和接触状态前瞻,在同一个任务里协同工作。

戴盟方介绍,这是他们相比纯视觉操作模型最重要的结构差异。

“触觉”,是戴盟身上一直以来一个鲜明的标签。

戴盟介绍自家的技术路线时表示,不能只把触觉看作机器人身上的一个辅助传感器。

在他们看来,触觉同时贯穿了机器人操作的感知、决策、控制三层,

(触觉)是Physical AI理解真实世界的关键入口。

作者 gjqs