小米开源 VLA 模型：20 小时教机器人“管中取针”

小米开源了具身智能大模型 VLA

小米最近把视觉 – 语言 – 动作（VLA）大模型 Xiaomi-Robotics-0 的完整微调流程开源了。这算是个实打实的动作，不是那种只发论文不干活的形式。

核心能力：快和准

1. 20 小时学会高难度动作

训练时间：基于他们预训练好的基础模型，团队只喂了大概 20 小时 的真实任务数据，机器人就学会了。
任务有多难：不是简单的“把 A 放到 B 旁边”，而是“管中取针”——就是把耳机精准地塞进那个细长的收纳盒里。这对机器人的手眼协调要求极高。
难点在哪：这种操作对空间感知要求很高，而且如果操作稍微偏一点，因为收纳盒表面太滑，耳机很容易滑出来。

2. 误差控制在毫米级

精度要求：模型输出的动作指令，偏差必须控制在 亚毫米级。
实时修正：机器人一边干活，一边能根据摄像头反馈实时调整手的位置。
观感：看视频你会发现，机器人拿东西的动作很丝滑，没有那种传统机器人笨拙的顿挫感。

这点挺有意思的：
以前的机器人想学会这种精细操作，要么得录几千次试错视频（数据贵且难采），要么得搭一个几百万的仿真环境来练。小米这招“预训练 + 少量真实数据微调”，直接把学习周期压缩到了 20 小时，精度还达到了工业级。这意味着，大模型可能真的能帮机器人摆脱“数据饥渴症”，不再非要去堆几百万条数据了。

为什么要把代码全开源？

小米这次没玩虚的，直接端对端开源：

模型权重：全公开，想用的直接下载。
技术报告：原理和架构文档都给了，想研究底层逻辑的也没门槛。
源代码：整个代码库都开源了，你可以直接拿去改改，适配自己的硬件。

这种搞法，等于把“黑盒”变成了“白盒”。开发者不仅能直接调用，还能盯着代码去优化机器人的感知和执行逻辑。对于想搞具身智能的创业公司或者实验室来说，这比等大厂慢慢迭代要快得多。

哪里能用到？

项目主页：https://robotics.xiaomi.com/xiaomi-robotics-0.html
GitHub 仓库：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0

说实话，看到“管中取针”这种级别的细节都开源，还是有点意外。如果后续真的能稳定跑起来，说不定很快就能在工厂里看到这种会“绣花”的机器人在干活了。

火龙果频道

近期新闻

AI-NEWS · 2026年 4月 27日

小米开源 VLA 模型：20 小时教机器人“管中取针”

小米开源了具身智能大模型 VLA

核心能力：快和准

1. 20 小时学会高难度动作

2. 误差控制在毫米级

为什么要把代码全开源？

哪里能用到？

您可能还喜欢...

AI-NEWS · 2026年 4月 27日

小米开源了具身智能大模型 VLA

核心能力：快和准

1. 20 小时学会高难度动作

2. 误差控制在毫米级

为什么要把代码全开源？

哪里能用到？

您可能还喜欢...

AI作曲大师上线

Firecrawl发布品牌元素提取API

腾讯数智人融合深求大模型