AI-NEWS · 2026年 6月 26日

Visics 来了,机器人终于不用“死记硬背”了

RoboScience 发布通用具身大模型 Visics:机器人行业要变天了

6 月 24 日,RoboScience 搞了个大动作,正式推出了一个叫 Visics 的通用具身大模型,顺便把背后的技术架构 VLOA(视觉 – 语言 – 物体 – 行动)也透了出来。说实话,这玩意儿一出,感觉机器人行业那个“各自为战、只会一招鲜”的尴尬局面,可能要被彻底打破了。

终于不再“死记硬背”了

以前搞具身智能,路子有点窄。主流做法就是让机器人“运动复制”——简单说,就是让机器人把某个特定动作的关节轨迹背得滚瓜烂熟。

这毛病出在哪?
太僵化了。一旦你换个硬件,或者桌面上的杯子换成了碗,这帮机器人立马就傻眼,彻底失效。真实世界哪有这么听话,稍微有点风吹草动,它们就转不动了。

RoboScience 的 CEO 田野也一针见血地指出了痛点:要想让机器人真正走出实验室,走进现实世界,泛化能力差长期任务执行难这两座大山是必须得翻过去的。

Visics 到底怎么破局?

Visics 没走老路,它想玩点新的。核心思路很简单:别教机器人怎么动,先教它怎么看懂物体。

它搞了一个“物体三维点云轨迹”作为中间语言,把整个逻辑理顺了:

  1. 具身世界模型:这玩意儿像是给机器人装上了“透视眼”。通过海量视频预训练,让它先看懂物理世界里物体是怎么动的,因果关系是什么。(解决了“理解”的问题)
  2. 通用操作模型:看懂了之后,再根据具体机器人的硬件条件,把那些通用的轨迹翻译成它能听懂的指令。(解决了“执行”的问题)

这招高明在哪?
这就好比以前让每个机器人单独学做菜,现在是个“万能食谱”(世界模型),然后不同身手的厨师(不同硬件)都能照着做。分层解耦之后,机器人终于能像人一样,先理解物体运动逻辑,再灵活调用手头有的工具去干活。跨躯体、跨物体、跨任务,这才是真正的“通用”。

数据成本也能省一半?

做机器人最怕什么?数据采集又贵又慢,搞个数据集能烧掉几个亿。

为了解决这个“卡脖子”的问题,RoboScience 搞了个 “模拟 + 视频”双数据飞轮

  • 一方面用自研的高精度仿真引擎 RoboMirage 在电脑里跑;
  • 另一方面结合自动化的数据标注流水线。

效果立竿见影:单条数据的采集成本直接降到了传统方法的 1% 以下。这账算得真漂亮,以前嫌贵的地方,现在居然成了“白菜价”。

公司现在的目标是啥?要在 2026 年 攒够 1TB 的高质量数据集。按现在的速度,每周数据增量能达到数万公里级别。听着挺吓人,但想想以前攒数据多难,这效率提升确实让人省心。

商业化:不碰“硬骨头”,先拿“软柿子”

很多做机器人的都想去跟传统工业自动化拼刺刀,抢那些成熟但壁垒极高的场景。RoboScience 这次倒是挺务实,避开了锋芒

它打算从 “物体维度” 切入。

  • 选什么场景? 那些 SKU 数量巨大、操作需求复杂的“重灾区”,比如超市理货、物流分拣、医疗辅助。
  • 现在进展如何? 技术已经在零售和物流领域开始试用了。
  • 什么时候能买到? 计划 今年内 就能把标准化的机器人本体产品推出去规模化量产。

最后说两句

RoboScience 这次的动作,其实不仅仅是发布一个模型,更像是在宣告具身智能的一个转折点。

以前机器人是“工具”,你让它干嘛它就干嘛,换个环境就废;以后它可能要变成“智能体(Smart Agent)”,自带脑子,能处理各种突发状况。

更重要的是,软件大模型(Visics)终于能管住不同的硬件了。以前那种软硬绑定的死结,这下算是解开了。随着这套组合拳打下来,机器人有望真正走出实验室,在生产和服务的战场上大显身手。

当然,从“试用”到“大规模普及”还有很长的路要走,但至少在方向上,大家终于看清了:未来的机器人,得是“通才”,而不是“专才”。

火龙果频道