智谱 AI 开源通用具身大模型 Wall-OSS-0.5:零样本部署打破行业僵局
核心突破
时间:2026 年 5 月
发布方:X Square Robot
模型名称:Wall-OSS-0.5
核心成就:终于,我们看到了具身智能领域的一个“真突破”。这个模型打破了那个让人头疼的规矩——以前必须针对每个新任务重新微调。Wall-OSS-0.5 直接实现了零样本(Zero-Shot)部署,把预训练好的模型扔进真实机器人里,它就能干活,完全不用任何针对特定任务的额外训练。
行业痛点与解决方案
以前的死胡同
说实话,过去几年的具身智能研究挺让人泄气的。行业里有个心照不宣的怪圈:你想让机器人做点新东西?先攒一堆特定任务的数据,搞一轮大规模微调。这就导致了一个尴尬的问题:你根本分不清,这机器人到底是真的懂物理规律、有“通用大脑”,还是只是死记硬背了一套“操作脚本”。
破局的关键
X Square Robot 用 Wall-OSS-0.5 把这个死结给解开了:
- 训练数据:没搞那些花哨的特定任务数据。团队直接基于超过 20 种 不同形态的机器人,喂了数百万条轨迹数据,再加上 9000 万条 多模态语料库进行预训练。简单说,就是让模型先“吃饱”通用的世界知识。
- 部署方式:省去了最耗时的微调环节。模型训练好,直接扔进真实机器人,即刻测试。
- 测试任务:为了验证它到底多“通用”,团队给它扔了 17 项 极具挑战性的任务,从理解语义到操作刚体物体,再到那些难搞的精细操作。
关键性能亮点
测试结果出来时,我们大概都没想到会这么惊艳,远超预期:
-
零样本能力,真的强
- 不需要任何微调,仅仅经过 40 万步 预训练的模型,在 17 个零样本任务里,就有 4 个任务的得分超过了 80 分(满分 100)。
- 最让人拍案叫绝的是“收紧绳索”这个任务。这是个典型的柔性物体操作,以前模型连摸都摸不着边,但 Wall-OSS-0.5 直接给出了 82 分 的高分。这证明它真的“看”懂了柔性物体的特性,而不是在机械地模仿。
-
微调效率,吊打旧模型
- 就算非要微调,Wall-OSS-0.5 的学习效率也高得离谱。
- 拿行业基准模型 π0.5 做对比,在完全相同的数据预算下,Wall-OSS-0.5 平均领先 17.5 分。
- 特别是在“精确插入”这种对稳定性要求极高的精细操作上,成功率直接提升了近一个数量级。以前可能要跑几千次才能成功,现在可能几十次就稳了。
-
能力是“进化”,不是“退化”
- 很多人担心,给机器人做密集的动作训练会不会把模型原本聪明的“多模态感知能力”给练废了?
- 实验结果狠狠打了这个担心一记耳光:不仅没废,反而进化了。经过密集的动作训练后,模型在视觉定位和推理能力上表现得更强了。这与其说是“重塑”,不如说是“强化”。
四大关键技术构建护城河
Wall-OSS-0.5 之所以能这么牛,背后是团队四项扎实的技术创新,不是什么空中楼阁:
- 梯度桥接(Gradient Bridging):
以前训练动作和预训练语言模型是两码事,现在直接把动作的监督信号注入到预训练骨干网络里。这让模型在底层表征层面就打通了“看、说、做”的任督二脉。 - 视觉对齐 Tokenizer:
解决了动作 Token 太抽象的问题。现在每个动作 Token 都带着清晰的视觉语义,赋予了模型真正的“物理意义”推理能力,不再是凭空瞎猜。 - 动作空间监督(Action Space Supervision):
训练时不再死磕那些琐碎的高频细节,而是关注轨迹的整体结构。这一招让模型的收敛效率蹭蹭往上涨。 - DMuon 分布式优化:
光有算法不行,还得算得动。通过底层系统优化,这套复杂的训练公式在大规模集群上的计算成本降低了 100 倍。这让这种原本只存在于论文里的想法,真正在大规模集群上跑通了。
行业里程碑意义
目前,X Square Robot 已经把 Wall-OSS-0.5 的相关模型权重、训练代码及数据集接口完全开源了。
行业分析认为,这不仅仅是又出了一个新模型,而是重新定义了具身智能的开发范式:
- 范式转移:大家不再单纯盯着“单任务成功率”看,而是转向追求“通用物理直觉迁移”。
- 新阶段特征:具身智能基础模型终于进入了以"可复现性、可验证性、可挑战性"为特征的新阶段。这意味着,以后开发机器人不再是一堆黑盒代码,大家可以在同一个标准下比拼谁更聪明、谁更稳,这将极大地加速通用型机器人在复杂真实环境中的落地。
说实话,看到这些细节,我觉得具身智能这个行业终于有点“活”过来了。
