小米开源首代机器人VLA大模型，突破具身智能延迟瓶颈

发布日期：2026年2月12日
阅读时长：约4分钟

核心摘要

小米公司正式开源了其第一代机器人模型 Xiaomi-Robotics-0。该模型参数量达 47亿，旨在解决现有VLA（视觉-语言-动作）模型因推理延迟导致的机器人动作缓慢问题，实现了在消费级GPU上的实时推理与高效泛化。

为平衡通用理解与高频控制，模型采用了创新的 MoT（Mixture-of-Transformers）混合架构：

研发团队通过严谨的训练方案平衡模型的常识理解与物理操作能力：

跨模态预训练：引入“动作提议”机制，使VLM在保持逻辑推理能力的同时，对齐特征空间与动作空间。随后冻结VLM，专门训练DiT以生成平滑的动作序列。
后训练：为解决真机运行时的“动作不连续”问题，采用异步推理模式。结合“干净动作前缀”（确保轨迹连续）和“λ形注意力掩码”（强制关注当前视觉反馈），使机器人在面对突发环境变化时具备强大的响应敏捷性。

在测试中，Xiaomi-Robotics-0展现了卓越性能：

小米此次全面开放了技术资源，旨在通过社区力量共同推动具身智能边界：

本文信息整理自AIbase，发布日期为2026年2月12日。