< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

场景永不消失,多人真正同屏

听雨 发自 凹非寺 量子位 | 公众号 QbitAI

完成近2亿美元的新一轮融资

终于正式对外披露自己的世界模型路线

VAST近期完成合计近2亿美元的A+及A++轮融资,领投方为渶策资本、国寿长三角科创基金。

投资方汇聚了头部市场化基金、国资平台与产业龙头战投,包括深圳市人工智能终端产业基金(产业方为全球头部终端厂商荣耀)、上海半导体产投等产业投资方,以及深创投、元生资本、沃赋创投与方广资本等一线财务资本。

同时,春华创投、靖亚资本、BV百度风投、东方嘉富等老股东亦持续超额追投。

这也是VAST继今年3月完成5000万美元A轮融资后,再度获得资本加持。

拿到这笔钱的同时,VAST也带来了他们最新的世界模型进展:

Project Eden

区别于业内「动作条件视频生成」与「静态3D场景生成」等常规路径,

Project Eden创造性地将底层状态推演与视觉呈现进行了原生解耦

AI 3D和世界模型,本就在同一条河流。VAST此番正式对外披露世界模型路线,也在情理之中。

从第一天开始,VAST真正在做的,

是解锁下一代互动内容的底层基础设施,也是为通用人工智能打造专属世界底座。

整体路径分为两大阶段:第一步完成「造万物」;第二步实现「造世界」,为用户和智能体提供可演化、可试错的完整虚拟环境。

造万物,是用AI生成天然兼容工业管线的3D资产。

而造世界则再往前走一步:构建可以动态推演、多人实时交互、状态永久留存的世界。

Project Eden:全新世界模型技术路线

行业里流传着一个梗:「什么模型都可以叫世界模型」。

这并不全是在开玩笑,现在世界模型的技术路线纷繁复杂,每一家都有自己核心押注的bet。

Google DeepMind的Genie走的是单体视频模型路线,把空间、世界、交互、视角全部压缩进像素历史。

但镜头一旦移开,模型就不知道那个地方发生了什么。它缺乏独立的状态概念,想支持多玩家交互,在架构上几乎不可能。

「AI教母」李飞飞创立的World Labs,走的是另一条路。

Marble强调空间结构和几何一致性,从一张图就能生成持久的3D世界,空间感知做得不错。

但这条路剥离了时间维度和物理运行逻辑,目前还停留在静态3D场景的重建,缺乏时间维度上状态的变化和推演。

Yann LeCun力推的JEPA,主张在潜空间里维护内部状态进行推演。这与VAST在底层哲学上有一定一致性,但前者目前更多停留在学术纲领上。

VAST认为,一套合格的通用世界模型,必须同时解决两大核心命题,第一是定义世界当下的客观状态(State),第二是驱动世界持续自主演化(Transition)。

他们的最终目标是构造可交互的虚拟世界,这是一个能够支持多人交互、环境永久存在、随时可以重访的世界。

Project Eden

把底层状态推演与视觉呈现进行原生解耦

具体来说,系统分为三层。

,维护着一个跨时间持续存在的全局世界状态。这个状态独立于相机视角,不管镜头转到哪里,世界的底层都在持续运转。

它是一种紧凑的隐式表征,记录着场景几何结构、物体身份属性和全局事件逻辑,计算效率有保证。

,作用是把底层3D状态,转化为特定视角下的语义和几何约束。

所有视角的渲染,都同源于同一个底层世界,物理一致性从架构层面就有保证,不是靠模型「猜」出来的。

,拿到状态约束之后,专注补全纹理、光照、材质和局部动态细节。

它不再需要盲猜画面结构,算力全部集中在渲染本身。

作者 gjqs