搭建AI通往真实世界交互的桥梁,商汤“绝影开悟”世界模型再升级
世界模型的价值不在于替代人类认知,而在扩展AI的物理边界。正如商汤CTO王晓刚所言:“我们搭建的是桥梁,而非终点。”
2025年7月26日,世界人工智能大会(WAIC 2025)在上海开幕,商汤绝影带来了升级后的“绝影开悟”世界模型。
这款官方定义为“连接数字世界与真实物理世界”的技术产品,一方面展示了商汤在辅助驾驶领域的量产落地能力,同时也揭示了其向具身智能领域延伸的野心——通过构建4D真实世界模型,为AI搭建通往物理世界交互的技术桥梁。
从数据生成到实训场建设
在辅助驾驶领域,“绝影开悟”的量产能力成为本次亮相的核心亮点。作为行业首个已实现量产的生成式世界模型,其技术价值已体现在产业实践中。
此前,上海自动驾驶实训场建设成果发布,商汤绝影深度参与其中,以“绝影开悟”世界模型给自动驾驶实训场建设提供支持。
目前,商汤绝影已与上汽集团旗下智己汽车打通Cut-in(加塞)、碰撞等关键场景的数据生成链路,意味着这些高风险、低概率的驾驶场景可通过模型批量生成,无需依赖真实路测采集。
双方的合作不止于此,据透露,未来将联合打造“数据工厂”,通过规模化生成场景数据,加速辅助驾驶系统的安全落地。
这种模式的优势在于解决了传统路测的核心痛点:真实场景采集成本高、极端案例覆盖率低。例如,一场罕见的暴雨天气下的连环追尾场景,通过“绝影开悟”可在数小时内生成数千组变体数据,而真实采集可能需要数年等待。
技术落地的背后,是产品化能力的支撑。
本次世界人工智能大会上,商汤绝影正式发布辅助驾驶领域首个生成式世界模型产品平台,面向B端企业与C端开发者开放试用。
该平台的功能体现在两方面:一是场景定制的灵活性,支持天气(晴/雨/雪)、光线(黎明/正午/黄昏)、道路类型(高速/城区/乡村)等多维度参数调整;二是“提示词生成”的便捷性,用户输入“雨天路面直行,前方有面包车在碰撞前刹停”等描述,即可一键生成对应场景视频。
与之配套的,是业内最大规模的生成式驾驶数据集“WorldSim-Drive”。
该数据集包含超100万段(clips)量产级数据,覆盖50余种天气光照条件、200类交通标牌及300类道路连接场景。
比数据数量更关键的是数据质量。通过多视角时空对齐技术,模型可以同时生成第一视角(驾驶员视角)与第三视角(外部观测视角)数据,且分辨率达1080P,时长支持分钟级连续记录,保真度接近真实采集数据。
效率方面,“绝影开悟”基于单张A100 GPU,其每日生成的数据量相当于10台真实测试车或100台路测车的采集能力,效率约为500台量产车的总和。
据悉,目前商汤绝影已有20%的训练数据来自该模型生成,大幅降低了对真实路测的依赖。
4D交互训练场:从仿真测试到实时体验
“绝影开悟”的技术纵深,体现在其构建的4D实时交互训练场。其通过融合3DGS重建技术与世界模型生成能力,让4D交互训练场实现了三项进步。
其一,大尺度高精度重建。模型能够对1km²范围内的真实空间进行高精度数字化重建,为车端模型提供接近真实的虚拟测试环境。
其二,动态场景闭环生成。用户通过文本描述或场景布局设定,就可以触发“输入需求→生成场景→微调优化”的闭环流程,快速生成占道急刹、环岛绕行等复杂场景。
其三,实时交互能力。策略模型与环境模型可以实现实时响应,从而确保仿真测试结果与真实驾驶的一致性。
目前,4D实时交互训练场已在合作中落地。商汤绝影与智己汽车合作构建的测试场景库,已覆盖占道急刹、环岛绕行等典型场景,未来计划扩展至千万级规模,来覆盖几乎所有的驾驶可能性。
在WAIC现场,观众还可以通过交互界面体验“虚拟驾驶”,例如在模型生成的暴雨天气高速场景中,实时操控车辆应对加塞,感受模型对物理环境的仿真精度。
向具身智能的延伸
如果说智能汽车是“简单的具身智能”,那么机器人等硬件则需要更复杂的物理世界理解能力。
这类具身智能面临的核心难题是“数据维度爆炸”,即机器人的传感器配置(视觉、触觉、力觉等)、移动方式(轮式、履带式、多足式)远多于汽车,且需应对家庭、工业等多样化场景,传统数据采集方式成本高、效率低。更棘手的是“Sim2Real鸿沟”,即通过模拟工具生成的数据难以直接应用于真实场景。
而商汤绝影的解决办法是将辅助驾驶领域的“虚实融合”数据迁移到具身智能上。
首先,构建多模态时空对齐能力。通过多传感器融合技术,模型可将视觉、触觉等数据在时间与空间维度精准匹配。
其次,生成高保真4D环境。基于动态环境建模技术,模型能实时预测物体运动轨迹,例如预判家庭场景中宠物的突然跑动。
最后,建立闭环验证体系。通过强化学习,机器人可以在虚拟环境中反复训练交互动作,再迁移至真实世界。
支撑这一迁移的是商汤的具身3D资产库,其中包含了10万个真实3D资产,涵盖了家庭、办公、工业等20类场景的动作数据。
更关键的是数据视角的完整性,模型既可生成机器人的“第一视角”,例如抓取物体的手部特写;也能生成“第三视角”,例如上帝视角下的机器人全身动作,从而解决了传统数据视角单一的问题。
结语:
“绝影开悟”的进化路径,本质上是AI从数字世界走向物理世界的缩影。
商汤科技联合创始人、CTO王晓刚在世界人工智能大会上表示,“绝影开悟”世界模型的核心价值在于“将AI创造力转化为生产力”,既为辅助驾驶提供场景数据,也为具身智能打造数据引擎。
从辅助驾驶到机器人,从数据生成到实时交互,“绝影开悟”的技术逻辑都围绕一个目标:通过构建与真实世界一致的4D模型,让AI在虚拟环境中“学会”与物理世界交互。
当这种能力成熟时,或许我们将看到家庭机器人能精准预判老人起身时的动作辅助,工业机械臂能在复杂流水线中自主避障。而这一切的起点,正是世界模型这个连接数字与物理世界的技术桥梁。(本文首发于钛媒体App 作者|王垚,编辑|李玉鹏)
(来源:钛媒体)