搭建AI通往真实世界交互的桥梁，商汤“绝影开悟”世界模型再升级

2025年07月29日,16时58分07秒科技新知阅读 70 views 次

世界模型的价值不在于替代人类认知，而在扩展AI的物理边界。正如商汤CTO王晓刚所言：“我们搭建的是桥梁，而非终点。”

2025年7月26日，世界人工智能大会（WAIC 2025）在上海开幕，商汤绝影带来了升级后的“绝影开悟”世界模型。

这款官方定义为“连接数字世界与真实物理世界”的技术产品，一方面展示了商汤在辅助驾驶领域的量产落地能力，同时也揭示了其向具身智能领域延伸的野心——通过构建4D真实世界模型，为AI搭建通往物理世界交互的技术桥梁。

从数据生成到实训场建设

在辅助驾驶领域，“绝影开悟”的量产能力成为本次亮相的核心亮点。作为行业首个已实现量产的生成式世界模型，其技术价值已体现在产业实践中。

此前，上海自动驾驶实训场建设成果发布，商汤绝影深度参与其中，以“绝影开悟”世界模型给自动驾驶实训场建设提供支持。

目前，商汤绝影已与上汽集团旗下智己汽车打通Cut-in（加塞）、碰撞等关键场景的数据生成链路，意味着这些高风险、低概率的驾驶场景可通过模型批量生成，无需依赖真实路测采集。

双方的合作不止于此，据透露，未来将联合打造“数据工厂”，通过规模化生成场景数据，加速辅助驾驶系统的安全落地。

这种模式的优势在于解决了传统路测的核心痛点：真实场景采集成本高、极端案例覆盖率低。例如，一场罕见的暴雨天气下的连环追尾场景，通过“绝影开悟”可在数小时内生成数千组变体数据，而真实采集可能需要数年等待。

技术落地的背后，是产品化能力的支撑。

本次世界人工智能大会上，商汤绝影正式发布辅助驾驶领域首个生成式世界模型产品平台，面向B端企业与C端开发者开放试用。

该平台的功能体现在两方面：一是场景定制的灵活性，支持天气（晴/雨/雪）、光线（黎明/正午/黄昏）、道路类型（高速/城区/乡村）等多维度参数调整；二是“提示词生成”的便捷性，用户输入“雨天路面直行，前方有面包车在碰撞前刹停”等描述，即可一键生成对应场景视频。

与之配套的，是业内最大规模的生成式驾驶数据集“WorldSim-Drive”。

该数据集包含超100万段（clips）量产级数据，覆盖50余种天气光照条件、200类交通标牌及300类道路连接场景。

比数据数量更关键的是数据质量。通过多视角时空对齐技术，模型可以同时生成第一视角（驾驶员视角）与第三视角（外部观测视角）数据，且分辨率达1080P，时长支持分钟级连续记录，保真度接近真实采集数据。

效率方面，“绝影开悟”基于单张A100 GPU，其每日生成的数据量相当于10台真实测试车或100台路测车的采集能力，效率约为500台量产车的总和。

据悉，目前商汤绝影已有20%的训练数据来自该模型生成，大幅降低了对真实路测的依赖。

“绝影开悟”的技术纵深，体现在其构建的4D实时交互训练场。其通过融合3DGS重建技术与世界模型生成能力，让4D交互训练场实现了三项进步。

其一，大尺度高精度重建。模型能够对1km²范围内的真实空间进行高精度数字化重建，为车端模型提供接近真实的虚拟测试环境。

其二，动态场景闭环生成。用户通过文本描述或场景布局设定，就可以触发“输入需求→生成场景→微调优化”的闭环流程，快速生成占道急刹、环岛绕行等复杂场景。

其三，实时交互能力。策略模型与环境模型可以实现实时响应，从而确保仿真测试结果与真实驾驶的一致性。

目前，4D实时交互训练场已在合作中落地。商汤绝影与智己汽车合作构建的测试场景库，已覆盖占道急刹、环岛绕行等典型场景，未来计划扩展至千万级规模，来覆盖几乎所有的驾驶可能性。

在WAIC现场，观众还可以通过交互界面体验“虚拟驾驶”，例如在模型生成的暴雨天气高速场景中，实时操控车辆应对加塞，感受模型对物理环境的仿真精度。

如果说智能汽车是“简单的具身智能”，那么机器人等硬件则需要更复杂的物理世界理解能力。

这类具身智能面临的核心难题是“数据维度爆炸”，即机器人的传感器配置（视觉、触觉、力觉等）、移动方式（轮式、履带式、多足式）远多于汽车，且需应对家庭、工业等多样化场景，传统数据采集方式成本高、效率低。更棘手的是“Sim2Real鸿沟”，即通过模拟工具生成的数据难以直接应用于真实场景。

而商汤绝影的解决办法是将辅助驾驶领域的“虚实融合”数据迁移到具身智能上。

首先，构建多模态时空对齐能力。通过多传感器融合技术，模型可将视觉、触觉等数据在时间与空间维度精准匹配。

其次，生成高保真4D环境。基于动态环境建模技术，模型能实时预测物体运动轨迹，例如预判家庭场景中宠物的突然跑动。

最后，建立闭环验证体系。通过强化学习，机器人可以在虚拟环境中反复训练交互动作，再迁移至真实世界。

支撑这一迁移的是商汤的具身3D资产库，其中包含了10万个真实3D资产，涵盖了家庭、办公、工业等20类场景的动作数据。

更关键的是数据视角的完整性，模型既可生成机器人的“第一视角”，例如抓取物体的手部特写；也能生成“第三视角”，例如上帝视角下的机器人全身动作，从而解决了传统数据视角单一的问题。

“绝影开悟”的进化路径，本质上是AI从数字世界走向物理世界的缩影。

商汤科技联合创始人、CTO王晓刚在世界人工智能大会上表示，“绝影开悟”世界模型的核心价值在于“将AI创造力转化为生产力”，既为辅助驾驶提供场景数据，也为具身智能打造数据引擎。

从辅助驾驶到机器人，从数据生成到实时交互，“绝影开悟”的技术逻辑都围绕一个目标：通过构建与真实世界一致的4D模型，让AI在虚拟环境中“学会”与物理世界交互。

当这种能力成熟时，或许我们将看到家庭机器人能精准预判老人起身时的动作辅助，工业机械臂能在复杂流水线中自主避障。而这一切的起点，正是世界模型这个连接数字与物理世界的技术桥梁。（本文首发于钛媒体App 作者｜王垚，编辑｜李玉鹏）

(来源：钛媒体)