踹了OpenAI后,Figure光速发布具身大模型Helix,能力前所未有、创多项第一
在 2 月份突然宣布终结与 OpenAI 合作之后,知名机器人初创公司 Figure AI 在本周四晚公开了背后的原因:他们已经造出了自己的通用具身智能模型 Helix。
Helix 是一个通用的视觉 - 语言 - 动作(VLA)模型,它统一了感知、语言理解和学习控制,以克服机器人技术中的多个长期挑战。
Helix 创造了多项第一:
-
全身控制:它是历史上第一个类人机器人上半身的高速连续控制 VLA 模型,覆盖手腕、躯干、头部和单个手指;
-
多机器人协作:可以两台机器人用一个模型控制协作,完成前所未见的任务;
-
抓取任何物品:可以捡起任何小型物体,包括数千种它们从未遇到过的物品,只需遵循自然语言指令即可;
-
单一神经网络:Helix 使用一组神经网络权重来学习所有行为 —— 抓取和放置物品、使用抽屉和冰箱、以及跨机器人交互 —— 无需任何任务特定的微调;
-
本地化:Helix 是史上第一个在本地 GPU 运行的机器人 VLA 模型,已经具备了商业化落地能力。
在智能驾驶领域,今年各家车厂都在推进端到端技术的大规模落地,如今 VLA 驱动的机器人也已
Helix 的训练效率很高
Helix 以极少的资源实现了强大的物体泛化。Figure 公司表示:「我们总共使用了约 500 小时的高质量监督数据来训练 Helix,这仅仅是之前收集的 VLA 数据集的一小部分(<5%),并且不依赖多机器人具身收集或多个训练阶段。」他们注意到,这种收集规模更接近现代单任务模仿学习数据集。尽管数据要求相对较小,但 Helix 可以扩展到更具挑战性的动作空间,即完整的上身人形控制,具有高速率、高维度的输出。
单一权重集
现有的 VLA 系统通常需要专门的微调或专用的动作头来优化执行不同高级行为的性能。值得注意的是,Helix 仅使用一组神经网络权重(系统 2 为 7B、系统 1 为 80M),就可以完成在各种容器中拾取和放置物品、操作抽屉和冰箱、协调灵巧的多机器人交接以及操纵数千个新物体等动作。
「拿起 Helix」(Helix 意为螺旋)
总结
Helix 是首个通过自然语言直接控制整个人形机器人上半身的「视觉 - 语言 - 动作」模型。与早期的机器人系统不同,Helix 能够即时生成长视界、协作、灵巧的操作,而无需任何特定于任务的演示或大量的手动编程。
Helix 表现出了强大的对象泛化能力,能够拿起数千种形状、大小、颜色和材料特性各异的新奇家居用品,并且这些物品在训练中从未遇到过,只需用自然语言命令即可。该公司表示:「这代表了 Figure 在扩展人形机器人行为方面迈出了变革性的一步 —— 我们相信,随着我们的机器人越来越多地协助日常家庭环境,这一步将至关重要。」
虽然这些早期结果确实令人兴奋,但总体来说,我们上面看到的还都属于概念验证,只是展示了可能性。真正的变革将发生在能大规模实际部署 Helix 的时候。期待那一天早些到来!
最后顺带一提,Figure 的发布可能只是今年具身智能众多突破的一小步。今天凌晨,1X 机器人也官宣即将推出新品。
参考内容:
https://www.figure.ai/news/helix
https://techcrunch.com/2025/02/20/figures-humanoid-robot-takes-voice-orders-to-help-around-the-house/
https://x.com/op7418/status/1892612512547213312
https://x.com/ericjang11/status/1892665299704422667
https://news.ycombinator.com/item?id=43115079
(来源:机器之心)