前智源团队创业,联想、智谱AI投了一家人形机器人大模型公司

2025年06月14日,09时42分58秒 科技新知 阅读 12 views 次

硬氪获悉,北京智在无界科技有限公司(以下简称「智在无界」,英文为BeingBeyond)近日完成数千万元融资,联想之星领投,智谱Z基金、燕缘创投、彬复资本跟投,势能资本担任独家财务顾问。资金将用于加大核心技术研发投入,加速现有模型迭代与产业化验证,以持续提升技术壁垒与产品竞争力。

「智在无界」成立于2025年1月,专注人形机器人通用大模型的研发与应用。创始人卢宗青是北京大学计算机学院长聘副教授,曾任智源研究院多模态交互研究中心负责人,负责过首个国家自然科学基金委原创探索计划通用智能体项目;多位核心成员均来自智源研究院,在强化学习、计算机视觉、机器人控制和多模态等领域有丰富的技术研发积累和应用落地经验。

当前,数据规模与泛化能力是制约具身大脑性能提升的核心矛盾。一方面,具身智能机器人要实现高度拟人化的行动与决策能力,依赖海量且多样化的数据进行深度训练。这些数据覆盖了日常琐碎操作、复杂环境交互等各类场景,数据规模呈指数级攀升态势。然而,数据采集过程仍面临技术、资源等多重门槛,依赖大量人力且难度大,存储成本更是随着数据量激增而迅速攀升。

另一方面,即便有海量的数据支持,机器人在未知环境中要灵活应对新任务、新物体与新干扰,仍依赖于强大的泛化能力。然而,现有模型面对存在显著差异的场景时,表现差强人意,难以将所学知识有效迁移至新情境,实际应用中适应性欠佳。

因此,如何在有限数据规模下提升泛化能力,成为具身大脑突破性能瓶颈、迈向实用化的关键挑战。

前智源团队创业,联想、智谱AI投了一家人形机器人大模型公司

「智在无界」所使用的预训练数据(图源/企业)

面向人形机器人的操作和运动两大核心能力,「智在无界」将其通用大模型系统分为具身多模态大语言模型、多模态姿态大模型和运动模型三层,并搭建了自学习具身智能体框架。

卢宗青告诉硬氪,区别于其他模型,「智在无界」的预训练数据来自互联网端的人类运动和手部操作视频,通过解析这些自然场景下的动作序列,构建机器人运动操作能力的预训练基础。这种以公开视频数据为驱动的技术路线,突破了传统方案对机器人真机数据的强依赖,可实现从 “人类行为示范” 到 “机器人动作生成” 的跨模态迁移。

具体而言,「智在无界」提出了多模态姿态模型,通过互联网上丰富的视频资源,包括如行走、舞蹈等人体全身运动,抓取物体、工具使用等第一人称视角的手部精细操作数据,能够为模型提供丰富且多元的动作样本。通过这些视频-动作数据,模型可学习到各种动作在不同环境下的表现形式,能依据实时的环境信息与任务要求,实现具有泛化性的端到端运动操作。

在具身多模态大语言模型方面,「智在无界」自主研发了Video Tokenizer技术,其强调时空环境的理解与推理能力,尤其是针对第一人称视角视频内容的解析。通过将连续视频流解构为兼具时间序列与空间语义的视觉token单元,使得该模型能精准捕捉动作的时序逻辑,比如伸手、抬升手臂到抓起物体的连贯过程,并基于物体方位、肢体相对位置等空间特征理解物理世界和人类行为。

目前,虽然简单的多模态大语言模型+运动操作策略已具备商业落地条件,但受真实场景中的动态环境变化影响,机器人的泛化能力难以适应,如何让人形机器人具备自主学习能力,成为其实现商业化落地的关键突破点。

为此,「智在无界」提出Retriever-Actor-Critic框架,通过对真实交互数据的RAG(检索增强生成)与强化学习,二者的协同应用,不仅能提升模型的响应准确性与用户体验,形成 “数据收集-模型优化-效果反馈” 的闭环,使机器人具备了动态适应多变场景的能力,为其规模化落地提供了可行的技术路径。

预训练➕后训练架构(图源/企业)

卢宗青指出,基于互联网视频预训练通用动作模型,再通过后期适配训练实现对不同机器人本体及场景的迁移,「智在无界」的技术路径可以避免因硬件迭代导致的数据浪费,继而有效解决真机数据稀缺与场景泛化的矛盾。目前,公司正同头部机器人厂商推进场景验证合作,以加快具身智能在更多领域的应用落地。

投资方观点:

联想之星合伙人高天垚表示,当前具身大模型的技术路线还未收敛,如缺乏统一的架构范式,BeingBeyond团队的技术路线解决了训练数据来源有限的问题,同时采用模块化打通大小脑的方式构建了一套完整的技术框架,与国外相似技术路线的团队相比具备全栈技术能力,依托多模态大模型等自研大模型,在解决具身大模型的任务与环境泛化性、跨本体等问题上有强有力的竞争力,逐步实现“零样本”泛化,期待BeingBeyond团队的产品在具有高潜力应用的场景落地,实现商业闭环。

智谱Z基金合伙人王璞表示,作为智在无界的天使投资人,我无比自豪地见证卢宗青教授及其团队在通用人形机器人领域取得的里程碑式突破。从构建业界首个百万规模的MotionLib数据集,到开发端到端的Being-M0动作生成模型,团队不仅验证了“大数据+大模型”在具身智能中的规模效应,更实现了跨平台动作迁移的技术闭环。这项创新将文本指令转化为机器人精细动作的能力,不仅突破了传统方法的局限,还为机器人走进千家万户铺平了道路。我坚信,智在无界将持续引领具身智能的迭代——从灵巧操作到全身运动控制,推动机器人从实验室走向日常生活。我们将与智在无界携手,同大家一道共同迎接一个由通用机器人赋能的新时代。

(来源:新浪科技)



用户登录