AI-NEWS · 2026年 1月 29日

蚂蚁开源具身大模型工具链

蚂蚁集团灵波科技开源具身智能大模型 LingBot-VLA 及后训练工具链

发布日期:2026年1月28日

核心摘要

蚂蚁集团旗下专注于具身智能的灵波科技,近日正式开源了其具身智能大模型 LingBot-VLA 及其完整的后训练代码库。此举旨在降低具身智能领域的研发门槛,加速技术从实验室走向大规模实际应用的进程。

模型性能表现

LingBot-VLA 在真实世界环境和仿真场景中均展现出强大的准确性与泛化能力。

真实世界评估(上海交通大学 GM-100 基准)

  • 基础性能:在三个不同的机器人平台上,平均任务成功率达到 15.7%
  • 对比优势:该成绩超越了对比模型 Pi0.5 的 13.0%
  • 感知增强:在引入深度信息后,其平均成功率进一步提升至 17.3%

仿真环境评估(RoboTwin2.0 仿真)

  • 在面对光照、杂物等随机干扰时,其操作成功率比 Pi0.5 高出 9.92%

技术核心:高效后训练工具链

该模型的优势不仅体现在性能上,更在于其高效的训练效率与迁移能力。

  1. 低成本迁移:得益于大规模预训练,模型在下游任务中能够以更少的数据量实现超越主流模型的性能。
  2. 高吞吐训练:团队构建了高效工具链,在8卡GPU配置下,每张GPU卡每秒可处理 261个样本
  3. 效率对比:其训练效率达到主流框架(如 StarVLA、OpenPI)的 1.5 至 2.8 倍

开源内容详情

灵波科技提供了从权重到工具的全链条资源,开发者可一键获取。

  • 模型权重:已在 Hugging Face 和 ModelScope 社区发布。
  • 完整代码库:GitHub 仓库已开源,包含数据处理、高效微调、自动化评估等全部代码。
  • 数据集与报告:同步提供了 GM-100 数据集及详细的技术报告。

行业影响

LingBot-VLA 的全面开源,为机器人开发者提供了一个真正实用、高效且低成本的视觉-语言-动作(VLA)模型选择,有望推动具身智能技术的产业化落地。


(根据 AIbase 2026年1月28日资讯整理)

火龙果频道