小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源 – 量子位
小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源
4090就能跑
就是说,这几天还有哪档晚会节目是没有机器人现身的吗?
光是过年全家乐的央视除夕春晚,就有好几家具身智能公司的机器人宣布将亮相。
大厂小厂密集入局,资本追逐、媒体传播……具身机器人几乎成了继AI大模型后,下一轮科技叙事的中心。
具身机器人行业也确实处在一个非常有意思的坐标点上:
一边是繁花似锦的视觉盛宴,各种高难度动作频频刷屏,让大众因为“看见”而开始对具身智能的未来深信不疑。
另一边,充满了行业对“真实价值”的迫切期待,大家开始关心,这些机器人什么时候能真正走进工厂、处理琐碎,释放出实实在在的生产力。
这种期待,其实折射出具身智能正在经历的一场范式演进。
机器人要真正成为生产力,核心含金量终究要落在“自主性”上。目前的“人工辅助”或“单步遥操”在技术验证阶段是合理路径,也有助于积累数据与经验。
但如果一个机器人在执行过程中频繁停顿、修正缓慢,人类就不得不高频次介入,打断自动化流程。
如果每台机器人都需要一个人类兜底,那……(不讲不讲.gif)
只有一个人能同时监管十台甚至一百台、一千台机器人的时候,只有每台具身机器人都能在长时间任务中持续决策、持续修正、持续执行的时候,大家密切关注的具身智能才不是一种空谈。
所以不难理解为什么小米的第一个具身VLA大模型,抓住的是具身机器人间歇停顿这个问题。
在4.7B参数规模下,Xiaomi-Robotics-0实现80ms推理延迟、30Hz实时控制频率,在消费级显卡(4090)上就能跑得飞起。
在LIBERO、CALVIN、SimplerEnv等仿真+真实环境的主流基准上,Xiaomi-Robotics-0均刷新SOTA。
And,最重要的事情说三遍:
这模型是开源的,开源的,开源的。
解读Xiaomi-Robotics-0三大技术创新
为了实现上述效果,小米在Xiaomi-Robotics-0上做了三项核心技术创新,分别落在架构设计、预训练策略与后训练机制上。
三部分共同指向一个目标,让机器人既能理解复杂环境,又能连续、稳定、精准地执行动作。
双脑协同:用DiT做小脑,一次性生成连续动作块
首先是架构层面的大动刀。
小米采用了目前主流的MoT(Mixture-of-Transformers)架构,但巧妙地将工作细分成了“大脑”和“小脑”。
大脑部分是VLM(视觉语言模型),负责全局的看、听、理解和决策;小脑部分则引入了只有16层的DiT(Diffusion Transformer)架构。
这个设计的高明之处在于,大脑输出的KV cache会传递给小脑,由小脑专门负责输出连续的动作块,这就改变了动作生成的粒度。
传统离散token方式会对连续动作进行离散化编码,精度容易被截断,轨迹会有细微不连续。
DiT配合流匹配技术,可以直接生成连续动作向量,动作更平滑灵巧。
同时,通过引入flow matching流匹配训练机制,Xiaomi-Robotics-0在训练阶段直接学习连续动作分布之间的概率流映射,推理阶段所需采样步数从传统扩散模型(如DDPM)通常需要的数十至数百步,压缩至五步。推理链路显著缩短,为低延迟实时控制提供了基础。
由于DiT与底层VLM同为Transformer结构,可以直接复用VLM的KV Cache,减少重复计算。
从整体架构看,大脑与小脑之间通过KV缓存松耦合连接,既保证理解能力,又控制了计算量。
这种松耦合的设计大幅降低了推理延迟,让机器人的动作不仅平滑灵巧,反应速度也达到了毫秒级——4.7B总参数的模型,推理延迟80ms,支持30Hz控制频率,在消费级显卡(RTX 4090)上可以实时丝滑运行。
两阶段预训练:学会动作,也保住视觉理解能力
小米在Xiaomi-Robotics-0的第二项创新中,解决了一个具身模型长期存在的“顾此失彼”难题。
很多模型在学了大量的机器人动作数据后,原本强大的视觉理解能力(VL能力)会迅速退化,结果只会干活,脑子不会思考了。
为了确保模型不变傻,小米在预训练阶段采用了两阶段特训。
第一阶段,通过Choice Policy与跨平台机器人轨迹数据,让VLM在理解图像与指令的同时,能够粗粒度预测动作块。
这一步的核心是对齐视觉特征空间与动作空间,让模型在“看见什么”与“如何动”之间建立映射。
与此同时,在预训练中混合视觉语言数据,避免VLM遗忘原有的视觉推理能力,建立起一种“看到这个画面,就该有这种手感”的直觉。
在从营销转向工程细节。而且在这个阶段开源高质量的基础模型,无疑是隐形承担了行业基础设施建设者的角色。
这不仅是企业行为,更是产业行为。
在机器人这样一个需要长期投入的领域,这种开放姿态释放出的信号十分明确。小米这一波,确实展现了科技大厂应有的担当。
技术主页:
https://xiaomi-robotics-0.github.io
GitHub:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
抱抱脸模型权重:
https://huggingface.co/XiaomiRobotics
(来源:量子位)

