小米开源首代机器人VLA大模型,突破具身智能延迟瓶颈
发布日期:2026年2月12日
阅读时长:约4分钟
核心摘要
小米公司正式开源了其第一代机器人模型 Xiaomi-Robotics-0。该模型参数量达 47亿,旨在解决现有VLA(视觉-语言-动作)模型因推理延迟导致的机器人动作缓慢问题,实现了在消费级GPU上的实时推理与高效泛化。
技术架构:大脑与小脑协同
为平衡通用理解与高频控制,模型采用了创新的 MoT(Mixture-of-Transformers)混合架构:
- 视觉-语言大脑:作为基础,负责解析模糊的人类指令并捕捉高清视觉中的空间关系。
- 动作执行小脑:嵌入多层扩散Transformer,通过流匹配技术生成精确的“动作块”,确保物理执行的灵活性。
训练策略:两阶段进化理论
研发团队通过严谨的训练方案平衡模型的常识理解与物理操作能力:
- 跨模态预训练:引入“动作提议”机制,使VLM在保持逻辑推理能力的同时,对齐特征空间与动作空间。随后冻结VLM,专门训练DiT以生成平滑的动作序列。
- 后训练:为解决真机运行时的“动作不连续”问题,采用异步推理模式。结合“干净动作前缀”(确保轨迹连续)和“λ形注意力掩码”(强制关注当前视觉反馈),使机器人在面对突发环境变化时具备强大的响应敏捷性。
性能表现:打破多项SOTA记录
在测试中,Xiaomi-Robotics-0展现了卓越性能:
- 仿真基准测试:在LIBERO、CALVIN和SimplerEnv三大仿真测试中,击败了30个对比模型,取得了当前最佳结果。
- 真机泛化能力:在双臂机器人平台上,无论是拆卸积木还是折叠柔性毛巾,模型都表现出高度的手眼协调和物理泛化能力。
开源生态
小米此次全面开放了技术资源,旨在通过社区力量共同推动具身智能边界:
- 技术主页:
https://github.com/XiaomiRobotics - 开源代码:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0 - 模型权重:已在Hugging Face平台发布。
本文信息整理自AIbase,发布日期为2026年2月12日。
