VAST斩获近2亿美元A轮系列融资，首席科学家解读新发布世界模型

2026年06月01日,17时14分31秒科技新知阅读 20 views 次

出品｜网易科技《态度AGI》栏目

作者｜丁广胜

“世界模型”这个词越来越高频地出现在AI叙事里。

OpenAI、Google等主张用视频生成来模拟世界；李飞飞则提出空间智能（Spatial Intelligence）的概念，核心是让AI真正理解三维空间关系；还有杨立昆长期主张的JEPA路线，核心是学习世界的内部状态。

还有自动驾驶、机器人、视频生成公司都给自己贴上“世界模型”的标签，这个概念正在迅速升温，也不可避免地变得模糊。

在VAST首席科学家曹炎培看来，世界模型不应该只是视频生成的高级说法，也不应该停留在研究论文或概念包装里。对于VAST而言，世界模型要解决的是一个更具体的问题：如何让每个人都能亲手创造、自由探索无数个可交互的世界。

“我们是为下一代互动内容生态和通用人工智能打造专属世界底座，来构筑最底层的造万物和造世界的能力，也即创造世界的引擎。”曹炎培说。

截至目前，VAST已经积累了网易、腾讯、索尼、拓竹等大批头部客户，其一站式 AI 3D 工作台Tripo Studio和Tripo系列模型正在贡献充沛的现金流，Tripo Studio平台已聚集超过2000万创作者。

而就在刚刚，VAST官宣斩获A+及A++两轮融资，合计近2亿美元。本轮融资由渶策资本、国寿长三角科创基金领投，深圳市人工智能终端产业基金（产业方为全球头部终端厂商荣耀）、知名产业战投、上海半导体产投等产业投资方，深创投、元生资本、沃赋创投与方广资本等一线财务资本联合投资；同时，春华创投、靖亚资本、BV百度风投、东方嘉富等老股东亦持续超额追投。这是 VAST 继今年3月融资后，时隔两月再度获得资本加持。

1、“造万物”和“造世界”

一同官宣的还有VAST 全新的世界模型项目Project Eden。

区别于业内“动作条件视频生成”与“静态3D 场景生成”等常规路径，Project Eden 创造性地将底层状态推演与视觉呈现进行了原生解耦。这一突破使它成为全球首个允许对世界状态进行自主维护与确定性控制的世界模型，并自然解锁了环境长程持久、场景自由复用、多人并发交互等颠覆性能力。

据介绍，Project Eden 旨在成为下一代低门槛交互式内容创作的底层引擎，同时能够为具身智能等智能体提供具备高逻辑一致性的训练与评测环境。

在我们与曹炎培的对话中，他把VAST的能力拆成两层：第一层是“造万物”，第二层是“造世界”。

所谓“造万物”，对应的是AI 3D资产生成。曹炎培以传统游戏开发举例。过去，游戏里的3D资产、关卡和道具，大多需要提前制作好，并打包进游戏包体中。即便是《侠盗猎车手》（GTA）这样的开放世界游戏，能够给玩家巨大空间感，本质上仍是一个预设内容足够庞大的封闭体验。

而如果用户能够随时生成自己想要的模型和物体，并且这些资产天然兼容游戏或图形管线，那么交互内容和游戏行业的设计范式就可能被改变。曹炎培提到，VAST的Tripo P1.0生成出来的模型，是“天然和游戏或者说图形管线兼容的”。这意味着，未来游戏里的环境和交互对象不一定都要预设，玩家或Agent可以根据实时进程瞬间构造新的关卡、角色和道具。

但“造万物”还不够。

在曹炎培看来，真正海量的交互，需要建立在一个有动态、有推演、有机制的环境里。这就进入了第二层能力：造世界。

这正是VAST做世界模型的原因。静态资产解决的是“世界里有什么”，但世界模型要解决的是“这个世界如何变化”。在一个真正可交互的世界中，物体要能够发生碰撞、角色要能够行动、环境要能够演化，多名玩家也要能够在同一空间中实时交互。

曹炎培认为，“造万物”和“造世界”结合之后，玩家和创作者的边界会被模糊。过去，玩家体验的是预设的固定内容；未来，用户可以实时生成、实时交互，甚至直接创造自己的世界。

这也是为什么曹炎培会把AI 3D、世界模型和AI Coding放在同一个框架里理解。在他看来，这三者不是孤立工具，而是通向UGC交互世界的“技术三角”。

AI 3D解决的是资产和状态，回答“世界里有什么”；世界模型解决的是演化和动力学，回答“世界如何变化”；AI Coding解决的是高层逻辑和游戏规则，回答“这个世界运行的规则是什么”。

换句话说，在这个三角里，AI 3D生成精准几何体、物理边界和初始场景结构；世界模型推演碰撞、破碎、运动和状态变化；AI Coding则把自然语言中的设定转化成秩序。

2、世界模型的关键是“状态演化”和“视觉呈现”解耦

据网易科技《态度》了解，VAST早已将世界模型提到公司长期战略的高度，是更长期、更深层的技术方向。

深扒VAST的世界模型路线，曹炎培总结道，“底层状态的演化推演和最终视觉呈现原生解耦。”这也是VAST与其他世界模型路线差异的关键，是Day one开始就考虑的事。

当然，曹炎培并不否认，Google、OpenAI等的世界模型，和VAST在底层目标上有共振。它们都试图让模型具备推演未来世界和构建世界的能力。但VAST的出发点更加具体：目标是让每个人都能亲手创造、自由探索无数个可交互的世界。这决定了VAST从第一天起就必须考虑几个约束：环境长程记忆、多人与智能体并发交互、在工程上能够低成本且可规模化落地。

曹炎培举例说，一个生成出来的世界应该一直存在那里。用户今天进入，明天重新打开电脑，还能回到同一个世界，继续体验它。这就要求模型维护某种稳定的世界状态，而不只是生成一段看起来连续的视频。

在曹炎培看来，Genie这类模型可以被理解为一种“暴力”的单体视频模型。它把空间、世界、交互、视角和最终外观呈现，全部压缩到像素或视频空间中，用“一镜到底”的方式探索世界。

问题在于，当镜头离开世界的某个角落时，模型并不知道那里发生了什么。镜头再回去，物体可能消失、不一致，或者发生变化。原因是这类模型没有真正维护一个“世界状态”。

曹炎培认为，这种机制更像是“幻想”。模型依赖海量视频数据中学到的分布匹配，生成看起来合理的画面，但并不真正知道某个物体在离开镜头之后是否还存在、位置是否改变、状态是否演化。因此，单目视频生成模型很难支持真正的环境持久化，也很难支持多玩家或多智能体共同进入同一环境交互。

“从原理上就注定了这种单目的视频生成模型很难，甚至暴论一点，永远没有办法实现真正的环境持久化，没有办法真正地支持多人或多智能体共同地对一个环境交互。”曹炎培说。

这也是VAST为什么选择“状态演化”和“视觉呈现”解耦。在这一路线中，模型首先要维护一个底层状态。这个状态不一定必须是显式3D，也可以是隐式或抽象的，但它必须描述整个世界里有什么东西、它们在什么位置、它们之间如何交互。之后，再由另一个模型在特定视角和条件下，把这个状态呈现成精美画面。曹炎培表示，这种解耦设计，才有可能支撑多人互动、长期记忆、场景复用等交互内容所必需的能力。

所以，一套合格的通用世界模型，必须同时解决两大核心命题，第一是定义世界当下的客观状态（State），第二是驱动世界持续自主演化（Transition）。据介绍，Project Eden世界模型正是解决这些问题而生。它有三大核心功能，环境长程持久、场景自由复用、多人交互并发。

不过，曹炎培也承认，世界模型的技术路线还没有完全收敛。VAST也在同清华大学、香港大学等科研院所合力进行科研攻关，已发表多篇论文并获行业认可。在他看来，目前整个行业仍处于深度探索阶段。

即便如此，曹炎培依然认为，世界模型有可能带来堪比ChatGPT的“aha moment”。某种意义上，世界模型需要通过一个“等效的图灵测试”：人无法分辨某个下一时刻状态究竟来自真实世界，还是由模型生成。一旦做到这一点，世界模型就会迎来真正的爆发。

3、面对竞争，跳出局部最优，最底层架构思考模型的上限

在竞争层面，曹炎培认为，VAST与通用大模型公司的关系更多是互补。OpenAI、Google等通用大模型在切入3D时，往往通过生成代码间接实现，把3D当作语言的副产品。语言模型擅长理解用户意图和宏观语义推理，但很难精确处理几百万个顶点、面片连接、局部褶皱等复杂几何问题。

“这些语言大模型是用来理解用户意图的，可以说是高层代码，但是我们提供的是底层3D形态，世界的演变，还有这些画面呈现的接口，”曹炎培说，“我们当然也有可能走出一条新的通用智能路线。”

而与大厂内部3D团队相比，曹炎培认为，VAST没有历史包袱。大厂团队往往被现有业务牵引，需要适配陈旧管线和具体项目KPI，容易陷入局部最优。VAST作为独立第三方，可以从第一性原理出发，重新定义未来3D生成、世界模型及其所带来的工业标准，也因此在更早的时候就积累了绝对领先的3D和世界模型数据优势。

那大厂的算力优势呢？曹炎培坦言，算力只能决定下限，底层的架构能力和底层思考的knowhow和mindset才决定上限。

起码目前，在目之所及范围内，曹炎培说，VAST没有竞争对手。

(来源：网易科技)

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关联资讯:

用户登录