与谷歌 Genie3 正面交锋,阿里发布世界模型HappyOyster:从被动生成到主动模拟
![]()
HappyOyster官网视频截图
阿里巴巴今日正式发布世界模型产品 HappyOyster(快乐生蚝),该产品支持用户实时构建可互动、可演绎、可探索的 AI 数字世界(官网链接:https://www.happyoyster.cn/)。这是继视频生成模型HappyHorse 之后,阿里 ATH 创新事业部在 AI 领域的又一重磅发布。
据悉,HappyOyster 基于原生多模态架构构建,支持多模态理解与音视频联合生成,目前已实现漫游(Wander)和导演(Direct)两大核心能力。用户生成的数字世界不仅能被完整保存,还可开放给其他用户进行二次创作,不过该产品目前处于限量早期体验阶段。
世界模拟器流派的差异化竞争
相比大语言模型相对成熟的模型架构和技术范式,世界模型仍属于前沿探索领域。阿里的 HappyOyster 与谷歌的 Genie3 同属于"世界模拟器"流派。区别于传统文生视频模型"输入提示词—等待渲染—获得成片"的被动流程,这一流派采用长时间跨度上的世界演化建模方式。
通过学习海量长视频数据,以及文本、动作指令、图像参考等多样控制信号,模型能够主动理解空间、物理与因果规律,预测情节和画面的演变,从而把"被动生成内容"转变为"主动模拟世界演化"。据阿里官方产品介绍,HappyOyster 采用了时间跨度更长的世界演化建模方式,使得模型能够保持高保真、长时序的动态场景生成。
在国际竞争格局中,腾讯已于同日发布并开源混元 3D 世界模型 2.0(HY-World 2.0),该模型可直接生成可二次编辑的 3D 资产文件,支持与现有游戏工作流无缝对接;Alphabet 旗下谷歌则运营着闭源的世界模型 Genie 系列。此次阿里入局,标志着中国科技公司在这一前沿领域的进一步布局。
在产品能力上,HappyOyster 差异化优势在于,漫游模式(Wander)下,用户仅需一句话或一张图,即可生成具备物理一致性的完整空间,物体位置稳定、场景持久存在,视角与光照也能跟随第一人称视角持续移动。目前 HappyOyster 支持长达 1 分钟的连续实时位移与镜头控制,并支持多样化的风格切换。
导演模式(Direct)则是 HappyOyster 的独家功能。用户能够在视频的任意节点,通过文字、语音或图像等多模态输入,随时实现镜头切换、剧情改写、角色调度,在充分的交互中生成一个光照、重力、角色动作与场景因果持续演化的世界,并能选择题材风格。目前,导演模式支持连续生成 3 分钟以上的 480p 或 720p 实时画面。
值得注意的是,当前漫游与导演两大模式尚未完全打通。未来用户有望在漫游过程中直接与世界深度互动、实时改写场景规则,真正实现边探索、边创造的无缝融合体验。
场景:游戏、影视、文旅
世界模型的发展仍处于早期阶段,但在实际应用中,HappyOyster 已在改变传统的内容创作模式和交互体验。
在游戏领域,开发者可快速生成可玩原型,玩家能实时驱动世界演化,无需预设脚本即可实现动态剧情分支与开放世界探索,大幅降低内容生产成本并提升沉浸感。在影视创作中,导演无需等待漫长的渲染周期,只需用自然语言描述创意,系统即可实时生成分镜画面,并支持在视频的任意节点改变镜头、角色和剧情,让创意验证时间大大缩短。
在文旅与教育领域,用户不再被动观看历史复原视频,而是能以第一视角走进名画现场或过往文明,在交互中探索因果、改写走向,实现从知识传递到沉浸体验的跃迁。
未来,HappyOyster 还能应用于线下智能空间或娱乐场景,例如与穿戴设备等智能硬件结合,根据人的位置、动作与语言动态,实时生成沉浸式内容,让数字世界与现实共振。
此次发布是阿里近期密集推出 AI 产品的最新动作。据报道,阿里巴巴已将云计算与 AI 业务确立为核心增长引擎,并设定目标,计划在五年内将相关年收入提升至 1000 亿美元。阿里集团 CEO 吴泳铭在 2026 财年 Q3 财报电话会议上宣布了这一目标,较现有规模增长约五倍。财报显示,阿里云本季度收入同比增长 36%,AI 相关产品收入连续第十个季度实现三位数增长。
HappyOyster 由阿里旗下新设业务单元 Token Hub(ATH 创新事业部)研发,与此前发布的 HappyHorse 同属一个团队。阿里近期持续加快 AI 产品发布节奏,并对内部组织架构进行调整,以强化技术商业化落地能力,推动前期投入转化为实际营收。
世界模型的"iPhone 时刻"何时到来?
尽管技术层面展现出差异化优势,但 HappyOyster 的商业化路径仍待观察。目前该产品仅向部分用户开放早期访问权限,大规模商业化模式尚未明确。
世界模型作为前沿探索领域,其技术成熟度与市场接受度仍需时间验证。相较于大语言模型已形成相对清晰的商业模式,世界模型在游戏、影视、文旅等场景的付费意愿、定价策略、生态建设等方面仍有待探索。此外,如何平衡生成质量、实时性与成本控制,也是产品规模化过程中需要解决的问题。
在国际竞争中,谷歌 Genie 系列仍保持闭源状态,已积累较多技术储备;腾讯混元 3D 世界模型 2.0 采取开源策略,可直接导出 3D 资产文件抢占开发者生态。阿里 HappyOyster 选择在此时入局,既是对自身多模态技术能力的信心体现,也是在 AI 基础设施层面的战略布局。
从技术演进角度看,HappyOyster 的发布标志着世界模型从实验室研究向产品化迈出关键一步。其漫游与导演的双模式设计,为交互式内容创作提供了新的可能性。然而,正如大语言模型经历了多年迭代才迎来 ChatGPT 的爆发,世界模型距离真正的"iPhone 时刻"或许仍有距离。
对于阿里而言,HappyOyster 不仅是技术实力的展示,更是其在 AI 时代争夺内容生产基础设施话语权的重要尝试。在谷歌、腾讯等巨头的环伺之下,这款产品的市场表现与技术迭代速度,将决定阿里能否在世界模型赛道占据一席之地。(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 秦聪慧)
(来源:钛媒体)
