机器人开始进工厂:为什么难成优秀员工 | 海斌访谈
它们已经能执行预先规划的特定任务,但智能化水平还不足以使其自主完成一些工作
“机器狗会不会追坏人?现在的机器狗肯定不会,这就不是一项预设的任务。”4月10日,智元酷拓董事兼首席运营官邱恒对第一财经记者表示。
现在四足机器人已经应用于仓库巡逻、电力线路巡检等场景。邱恒提到的这个案例,揭示了机器人面临的现况:它们已经能执行预先规划的特定任务,但智能化水平还不足以使其自主完成一些工作,还远不足以成为优秀的员工。
4月10日,两家机器人公司同时公布新技术进展。智元酷拓推出新一代四足机器人,灵初智能则发布大模型Psi-R2与Psi-W0,并开源首批1000小时人类手部操作数据集。中国科技企业快步推进创新,但这些企业的管理层也指向共同难题:高质量数据的稀缺,阻碍了机器人“大脑”的发育。

“真机数据一定很难Scale-Up”
对于固定路线的巡逻任务,四足机器人已经游刃有余。
四足机器人在巡检过程中,如果遇到人员闯入仓库,可以脸部扫描并识别人员是否合法。如果非法的话,它可以语音警告,同时把照片或视频信息发送到云端,发送给安保公司进一步处理。
目前四足机器人只有中国企业在大规模地研发和制造。据IDC报告,2024年全球四足机器狗市场出货量约2万台。中国厂商凭借性价比和规模化能力重塑了产业格局,宇树科技和云深处的市场份额分别为32.4%、18.9%,排名第三的美国企业波士顿动力份额12.2%。
“巡逻巡检、定点拍照,这是单步固定流程。”邱恒说。实际作业场景,是有自主规划、实时异常处理需要的,但机器人还不能自主地去追击盗窃犯。“这就不是一项预设的任务。要追坏人,肯定无法先把路线设好,无法让坏人按照路线跑。”
智元酷拓是智元集团旗下的子公司,专注于四足机器人开发。就人形机器人而言,宇树科技与智元是中国出货量排名靠前的企业。
人形机器人以站立作业为主,移动为辅。比如在工厂的工位上的人形机器人,工作主要由手臂来完成;四足机器人则以移动为主,手臂作业为辅,它更适合移动及较长距离的搬运工作。
中国企业已经把人形机器人送上了春晚舞台,送到了手机生产线做物料箱的搬运,但人形机器人和四足机器人当下面临相似的境况。
“机器人按照什么样的路线去走,这是提前编程编好的。如果没有提前编程设计,让机器人独立完成任务,比如给它一个指令,把某个东西送到某个地方,它以前没做过,要自己看地形往哪走,判断哪里要上台阶,哪里要拐个弯。目前能做到这种能力的公司还不存在。”邱恒说。
中国有成熟的制造业基础,因此机器人的硬件能力容易补齐。虽然现在机器人的执行器、灵巧手等部件还有待完善,但随着时间的推移,硬件会更加成熟。
“大脑”能力的突破则更难。
所谓机器人“大脑”,是业界形象的表述,它指的是掌管机器人智能的模块。相对应的,小脑一般指掌管人形机器人运动的模块。
“大脑”的发育需要好的环境,就如婴儿需要在真实环境中认知世界。但现在机器人“大脑”的培育所需的高质量数据有限。
“我还是认同,最终智能其实来源于数据。”灵初智能联合创始人陈源培在4月10日的一场直播中表示。
当晚,灵初智能推出大模型Psi-R2和Psi-W0,以及总规模近10万小时的人类手部操作数据集,并开源了1000小时的数据。灵初智能这些数据是依靠人类佩戴高性能手套,在实际作业场景中采集而来。这有别于操作机器人采集的数据。
互联网上存在大量的语言、视频类数据,它们成为大语言模型的燃料。而机器人的操作、运动方面的数据保存得非常少。而且,什么是可行的数据发展路径,业界也摇摆不定。
“最早的时候,大家都是用真机数据,直接拿机器人去采采采。后面发现,真机数据的样本效率太低了,所以又用了仿真数据。但是仿真又会有Sim2Real(模型从模拟域迁移到真实域时,由于数据分布不一致而产生的性能退化)的问题,所以现在大家又回到了真机。”陈源培表示,“但在有限的时间里,真机数据是一定很难Scale-Up(批量扩展)的。我们的解决方案就是(采集)人类数据”。

在工厂里进化
“虽然看得到一些东西,但是我觉得具身智能还没有到GPT-3的时候。”陈源培表示。
GPT-3是OpenAI于2020年推出的参数为1750亿的大模型,它的出现令科技界看到了大语言模型的智慧曙光。
在大语言模型,缩放定律(Scaling Law)已经证明了有效性:模型性能会随着模型规模、数据量和算力的增加而改变。高质量数据的稀缺,阻碍了缩放定律在机器人领域发挥作用。
“我对于机器人的商业化,是比较有信心的。但是对于机器人技术的进展是偏保守的。”陈源培表示,虽然技术瓶颈会突破,但是进度不会像大家想象的一下子就达到非常高的地步。
这意味着在相当长时间里,机器人都难以进化出令人满意的智力。不管是四足还是人形,机器人现在能完成的是部分特定任务,而不能指望它变成一个通才。
这也是为什么众多机器人公司选择在行业场景,而非家庭场景里落地。
“我们的选择很简单,不会上来就做家庭场景,因为家庭产品的功能需求太多了。比如机器人擦桌子,碰到一张纸巾,要把它扔到垃圾桶里;碰到一个手机,就不能扔垃圾桶里,而需要把它放到旁边。”陈源培表示,灵初智能更倾向于先在一些工业场景里寻找机会,“我认为家庭场景短期内肯定是进不去的”。
智元、宇树科技等也有类似的考量。
“我们暂时没有计划做To C应用。”邱恒对记者说。智元的人形与四足机器人,选择应用场景的时候有相似的逻辑。现在四足机器人已经在做安防巡逻、工业巡检、消防等。“先ToB再ToC,原因是跟技术成熟度有关系的。行业应用环境比较限定,业务容易闭环。但一旦到了人和家庭中,面对多元化的环境,它需要的智能更加复杂。我们想先把电网干好,把煤矿干好,把安防干好,然后再看要不要去家里面干活。”
相对于其他国家,中国这样体量庞大,场景多元化的经济体有独特优势。那些已经有一技之长的机器人,不难找到施展的空间。比如宇树科技在2025年已经出货了5500台人形机器人,近3万台四足机器人。智元在今年初,也已经累计下线了万台人形机器人,部分机器人已经在手机产线上打工了。
一家研究机构的分析师此前对记者表示,现在一些整机厂商短期会交付一些工业场景的人形机器人,但仍需观察这些机器人落地后的真实反馈,比如效率提升、下游客户对于经济性的考量,以及试用3-6个月之后,同一个客户是否重复购买。
这些进入制造业流水线的机器人,会向开发企业反馈它们所遇到的问题。手臂操作精度不够以至于出现偏差,电池管理不善以至于频繁死机,这些都会时不时发生,但故障是机器人在工厂里进化迭代的最好起点。更重要的是,仓库和变电站里巡逻的四足机器人,生产线上组装手机的人形机器人,会收集和反馈宝贵的真实世界数据,从而帮助机器人大脑的发育。
“一旦有了智能化大脑,旧场景也会有新范式。以前单纯做工业巡检、数据采集的机器人,将会变成设备诊断专家;遥控探路的机器人,就会变成应急的尖兵”邱恒表示。
机器人还处于非常早期的阶段,整个市场的渗透率连1%都没到。邱恒认为,四足机器人比人形机器人更简单一些,随着智能提升,成本下降,它会比人形机器人更早实现商业闭环。
