数据困局下的具身智能,谁能率先破局?
(来源:机器之心)
机器之心PRO · 会员通讯 Week 32
--- 本周为您解读 ②个值得细品的 AI & Robotics 业内要事 ---
1. 数据困局下的具身智能,谁能率先破局?
真实数据是否注定是通用机器人的必经之路?合成数据是否永远只能「补量」?遥操作作为当前最直接的数据采集方式,能否在控制效率和扩展能力之间找到可持续平衡?Sim2Real 的大规模部署是否需要一种「标准化仿真」平台?在多模态遥操作系统中,语言 + 手势 + 触觉的融合是否意味着人类操控门槛正在被技术主动下探?...
2. OpenAI 董事会主席:「按 token 计费」大错特错!市场终将选择「按成果付费」
Bret Taylor 为何称「应用 AI」才是创业者的生路?「长尾 Agent 公司」将如何取代传统 SaaS?「按 token 计费」有什么根本缺陷?为什么 AI 市场终将选择「按成果付费」?结果导向的商业模式如何适应当前的 AI 缺陷?Bret Taylor 的商业模式在 Sierra 实践效果如何?什么是 AI 编程的新范式?...
本期完整版通讯含 2 项专题解读 + 30 项 AI & Robotics 赛道要事速递,其中技术方面 13 项,国内方面 8 项,国外方面 9项。
本期通讯总计 23872 字,可免费试读至 8 %
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)

要事解读①数据困局下的具身智能,谁能率先破局?
引言:7 月 29 日,具身智能大脑公司 Skild AI 发布其最新进展,专注于真实数据的严重不足的行业核心难题。Skild AI 指出,目前多数机器人基础模型仅依赖极少量真实操作数据(不足 1%),导致物理常识缺失,限制了模型在复杂环境下的泛化能力。与单一追求扩大真实数据不同,公司倡导融合多样化数据,尤其强调利用大规模视频数据提升模型对真实物理交互的理解与适应。其观点聚焦具身智能核心挑战,即如何平衡真实数据与合成数据,从而推动通用机器人迈向规模化和通用化。
真实数据告急,合成数据撑不起具身智能「通用梦」?
1、在推动具身智能技术发展的过程中,数据的来源和质量始终是核心议题。
2、随着智能体应用场景日益复杂,业内对于训练所依赖的数据类型产生了分歧。究竟是基于真实环境中采集的数据更为关键,还是高度可控、易扩展的合成仿真数据才是未来的突破口?
① 这一争论不仅关系到技术路径的选择,也影响着具身智能能否真正实现规模化、通用化部署。
3、一方面,以 UC Berkeley 教授 Sergey Levine 为代表的学者和产业界人士指出,尽管合成仿真数据在成本和扩展性方面具有明显优势,但现实世界的复杂性和动态特征难以在仿真环境中得到充分模拟。[1-1]
① 具体来讲,现实世界涉及多样的物理属性变化,例如不同材质表面的摩擦系数差异和环境中动态变化和不可预见事件的发生,导致模型无法成功迁移至现实环境,形成了「domain gap」。
4、Levine 进一步指出,随着模型能力的提升,模型越容易识别并利用模拟与现实之间的微妙差异,反而削弱了其泛化能力,导致真实与仿真数据交集范围越来越小,模型更难以适应开放且不可控的真实世界。
5、在此背景下,Levine 明确提出只有真实数据才能反映真实的物理交互过程,任何绕过真实数据、仅靠合成仿真数据的训练尝试,都难以达到理想中的通用具身智能水平。
6、而另一方面,以银河通用机器人创始人王鹤为代表的业内人士则认为,仿真环境具备可控、低成本和高效扩展的优势,可以快速生成大规模、多样化的训练样本,解决真实数据采集难度大、成本高的问题。
7、王鹤指出,具身智能领域需要上百亿条真实数据,对应到 Token 则达到上万亿的数据规模(至少达到当前大模型的 Token 数才能实现泛化)。但目前公开的最大数据集仅在百万数据级别,这是具身智能发展的最大瓶颈。[1-2]
8、同时由于真实数据的采集限制,具身智能领域难以效仿自动驾驶通过海量自动回流数据支撑大模型训练。在此背景下,他认为「具身智能的爆发必须靠合成数据先行」。[1-3]
9、王鹤强调合成数据不仅是补足数据量级的手段,更为端到端训练提供了可能。
① 例如其团队研发的具身基础大模型 GraspVLA 凭借十亿级合成数据完成预训练,之后微调少数真实数据实现高稳定性泛化应用,例如在零售、导航等场景的商业部署。
② 这种从纯合成训练起步、再用真实数据提升部署能力的策略,被王鹤视作具身智能冷启动和规模化发展的关键路径。
遥操作与 Sim2Real,哪条技术路线才是具身智能通用化的关键?
在真实与合成数据之争中,遥操作(Teleoperation)作为一种高度依赖人类参与的数据采集方式,正成为真实数据获取的主要渠道之一。尤其在具身智能初期阶段,许多策略模型都依赖人类操作者提供高质量的示范动作,来支持模仿学习与强化学习算法的训练。相比之下,合成仿真数据则更适合用于大规模预训练与策略泛化,其优势在于可控性强、可扩展性高、成本相对较低,是 Sim2Real 技术路径的关键基础。
表:遥操作和 Sim2Real 关键技术路线 [1-4]-[1-13]