AI-NEWS · 2026年 2月 13日

小米开源机器人模型

小米开源首代机器人VLA大模型,突破具身智能延迟瓶颈

发布日期:2026年2月12日
阅读时长:约4分钟

核心摘要

小米公司正式开源了其第一代机器人模型 Xiaomi-Robotics-0。该模型参数量达 47亿,旨在解决现有VLA(视觉-语言-动作)模型因推理延迟导致的机器人动作缓慢问题,实现了在消费级GPU上的实时推理与高效泛化

技术架构:大脑与小脑协同

为平衡通用理解与高频控制,模型采用了创新的 MoT(Mixture-of-Transformers)混合架构

  • 视觉-语言大脑:作为基础,负责解析模糊的人类指令并捕捉高清视觉中的空间关系。
  • 动作执行小脑:嵌入多层扩散Transformer,通过流匹配技术生成精确的“动作块”,确保物理执行的灵活性。

训练策略:两阶段进化理论

研发团队通过严谨的训练方案平衡模型的常识理解与物理操作能力:

  1. 跨模态预训练:引入“动作提议”机制,使VLM在保持逻辑推理能力的同时,对齐特征空间与动作空间。随后冻结VLM,专门训练DiT以生成平滑的动作序列。
  2. 后训练:为解决真机运行时的“动作不连续”问题,采用异步推理模式。结合“干净动作前缀”(确保轨迹连续)和“λ形注意力掩码”(强制关注当前视觉反馈),使机器人在面对突发环境变化时具备强大的响应敏捷性。

性能表现:打破多项SOTA记录

在测试中,Xiaomi-Robotics-0展现了卓越性能:

  • 仿真基准测试:在LIBEROCALVINSimplerEnv三大仿真测试中,击败了30个对比模型,取得了当前最佳结果。
  • 真机泛化能力:在双臂机器人平台上,无论是拆卸积木还是折叠柔性毛巾,模型都表现出高度的手眼协调和物理泛化能力

开源生态

小米此次全面开放了技术资源,旨在通过社区力量共同推动具身智能边界:

  • 技术主页https://github.com/XiaomiRobotics
  • 开源代码https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • 模型权重:已在Hugging Face平台发布。

本文信息整理自AIbase,发布日期为2026年2月12日。

火龙果频道