腾讯机器人 X 实验室最近搞了个大动作,联合混元大模型团队,推出了一个专门给机器人用的基座模型,叫 HY-Embodied-0.5。
说实话,看这份发布稿时,我有点被那些华丽的词藻绕晕了,但扒开来看,这其实是在解决一个很老的问题:以前的视觉语言模型(VLMs)虽然能看图说话,但懂物理、能动手的脑子几乎为零。这个新模型,就是试图把大模型的“大脑”真正装进机器人的身体里。
这不是“套壳”,是彻底重写了
很多团队做机器人 AI,习惯拿现成的通用大模型微调一下,结果往往是在纸上谈兵。腾讯这次不一样,他们把架构和训练方式全推倒重来了。
这次发了两个版本,看需求选:
- MoT-2B(轻量版):总共 40 亿参数,激活的才 20 亿。主打一个“快”,延迟低,适合在边缘设备上实时跑,比如贴墙边的扫地机那种场景。
- MoE-32B(旗舰版):参数飙到 4070 亿,激活 320 亿。这属于“重型坦克”,为了处理那些复杂的逻辑推理,虽然吃资源,但脑子转得快。
技术上的几个狠招
为了解决多模态训练时容易出现的“学了新忘旧”(灾难性遗忘)问题,他们搞了几个具体的招数:
- 参数不共享的混合架构:以前视觉和语言是混在一起算的,现在分家了。视觉用他们自家的 HY-ViT2.0 编码器,语言用大模型,中间再通过“视觉潜隐 Token"来沟通。这样理解画面更准,生成指令也更稳。
- 数据量很吓人:专门定制了超过 1 亿条 高质量数据。这可不是随便抓取的,全是针对机器人怎么抓东西、怎么走路这种具体场景。
- 训练像“带娃”:用了拒绝采样微调、强化学习,还有在线蒸馏。简单说,就是让模型自己试错、自己反思,把思维链(Chain of Thought)练出来,而不是死记硬背。
成绩确实漂亮
经过评测,这个模型在 22 项 涉及感知、推理和规划的任务里,拿了 16 项 第一。
- 轻量版 吊打同量级的竞品,比如 Qwen3-VL-4B 和 RoboBrain2.5。
- 旗舰版 直接跟国际顶尖的 Gemini 3.0 Pro 掰手腕,结果不输。
这意味着国产具身智能模型,至少在纸面数据上已经能跟全球第一梯队叫板了。
别光看纸面,还得看能不能落地
最关键的还是实战。团队把模型装进机器人里,做了“装箱”、“堆叠”这种物理操作。结果发现,它比市面上那些主流基线模型都强。
这确实是个信号:具身智能可能真的要走出实验室,不再是在虚拟环境里“过家家”,而是能真正去搬箱子、叠盘子了。
不过,我也得泼点冷水。现在的数据还是“仿真”出来的,虽然比纯虚拟环境好点,但离真实的、充满不确定性的物理世界还有距离。机器人真的能像人一样灵活地处理突发状况吗?咱们还得接着看后续。
