AI-NEWS · 2026年 4月 27日

小米开源 VLA 模型:20 小时教机器人“管中取针”

小米开源了具身智能大模型 VLA

小米最近把视觉 – 语言 – 动作(VLA)大模型 Xiaomi-Robotics-0 的完整微调流程开源了。这算是个实打实的动作,不是那种只发论文不干活的形式。

核心能力:快和准

1. 20 小时学会高难度动作

  • 训练时间:基于他们预训练好的基础模型,团队只喂了大概 20 小时 的真实任务数据,机器人就学会了。
  • 任务有多难:不是简单的“把 A 放到 B 旁边”,而是“管中取针”——就是把耳机精准地塞进那个细长的收纳盒里。这对机器人的手眼协调要求极高。
  • 难点在哪:这种操作对空间感知要求很高,而且如果操作稍微偏一点,因为收纳盒表面太滑,耳机很容易滑出来。

2. 误差控制在毫米级

  • 精度要求:模型输出的动作指令,偏差必须控制在 亚毫米级
  • 实时修正:机器人一边干活,一边能根据摄像头反馈实时调整手的位置。
  • 观感:看视频你会发现,机器人拿东西的动作很丝滑,没有那种传统机器人笨拙的顿挫感。

这点挺有意思的
以前的机器人想学会这种精细操作,要么得录几千次试错视频(数据贵且难采),要么得搭一个几百万的仿真环境来练。小米这招“预训练 + 少量真实数据微调”,直接把学习周期压缩到了 20 小时,精度还达到了工业级。这意味着,大模型可能真的能帮机器人摆脱“数据饥渴症”,不再非要去堆几百万条数据了。

为什么要把代码全开源?

小米这次没玩虚的,直接端对端开源:

  1. 模型权重:全公开,想用的直接下载。
  2. 技术报告:原理和架构文档都给了,想研究底层逻辑的也没门槛。
  3. 源代码:整个代码库都开源了,你可以直接拿去改改,适配自己的硬件。

这种搞法,等于把“黑盒”变成了“白盒”。开发者不仅能直接调用,还能盯着代码去优化机器人的感知和执行逻辑。对于想搞具身智能的创业公司或者实验室来说,这比等大厂慢慢迭代要快得多。

哪里能用到?

说实话,看到“管中取针”这种级别的细节都开源,还是有点意外。如果后续真的能稳定跑起来,说不定很快就能在工厂里看到这种会“绣花”的机器人在干活了。

火龙果频道