RoboScience 发布通用具身大模型 Visics：机器人行业要变天了

6 月 24 日，RoboScience 搞了个大动作，正式推出了一个叫 Visics 的通用具身大模型，顺便把背后的技术架构 VLOA（视觉 – 语言 – 物体 – 行动）也透了出来。说实话，这玩意儿一出，感觉机器人行业那个“各自为战、只会一招鲜”的尴尬局面，可能要被彻底打破了。

以前搞具身智能，路子有点窄。主流做法就是让机器人“运动复制”——简单说，就是让机器人把某个特定动作的关节轨迹背得滚瓜烂熟。

这毛病出在哪？
太僵化了。一旦你换个硬件，或者桌面上的杯子换成了碗，这帮机器人立马就傻眼，彻底失效。真实世界哪有这么听话，稍微有点风吹草动，它们就转不动了。

RoboScience 的 CEO 田野也一针见血地指出了痛点：要想让机器人真正走出实验室，走进现实世界，泛化能力差和长期任务执行难这两座大山是必须得翻过去的。

Visics 没走老路，它想玩点新的。核心思路很简单：别教机器人怎么动，先教它怎么看懂物体。

它搞了一个“物体三维点云轨迹”作为中间语言，把整个逻辑理顺了：

这招高明在哪？
这就好比以前让每个机器人单独学做菜，现在是个“万能食谱”（世界模型），然后不同身手的厨师（不同硬件）都能照着做。分层解耦之后，机器人终于能像人一样，先理解物体运动逻辑，再灵活调用手头有的工具去干活。跨躯体、跨物体、跨任务，这才是真正的“通用”。

做机器人最怕什么？数据采集又贵又慢，搞个数据集能烧掉几个亿。

为了解决这个“卡脖子”的问题，RoboScience 搞了个 “模拟 + 视频”双数据飞轮。

效果立竿见影：单条数据的采集成本直接降到了传统方法的 1% 以下。这账算得真漂亮，以前嫌贵的地方，现在居然成了“白菜价”。

公司现在的目标是啥？要在 2026 年 攒够 1TB 的高质量数据集。按现在的速度，每周数据增量能达到数万公里级别。听着挺吓人，但想想以前攒数据多难，这效率提升确实让人省心。

很多做机器人的都想去跟传统工业自动化拼刺刀，抢那些成熟但壁垒极高的场景。RoboScience 这次倒是挺务实，避开了锋芒。

它打算从 “物体维度” 切入。

RoboScience 这次的动作，其实不仅仅是发布一个模型，更像是在宣告具身智能的一个转折点。

以前机器人是“工具”，你让它干嘛它就干嘛，换个环境就废；以后它可能要变成“智能体（Smart Agent）”，自带脑子，能处理各种突发状况。

更重要的是，软件大模型（Visics）终于能管住不同的硬件了。以前那种软硬绑定的死结，这下算是解开了。随着这套组合拳打下来，机器人有望真正走出实验室，在生产和服务的战场上大显身手。

当然，从“试用”到“大规模普及”还有很长的路要走，但至少在方向上，大家终于看清了：未来的机器人，得是“通才”，而不是“专才”。

近期新闻