AI-NEWS · 2026年 4月 18日

NVIDIA Lyra 2.0:300 万行代码的代价

NVIDIA 发布了 Lyra 2.0:一张图,90 米,真·3D 世界

说实话,看到 NVIDIA 在 2026 年 4 月 16 日 放出 Lyra 2.0 这个成果时,我第一反应不是兴奋,而是有点恍惚。

以前我们总被视频生成模型里的“空间畸变”劝退——跑一段长路径,画面就糊了,物体突然穿模,那种割裂感谁懂?Lyra 2.0 直接把这件事给“干”了:单张图片,就能生成 90 米 范围的高度连贯 3D 环境。这不仅仅是数字游戏,它直接切中了具身智能(Embodied Intelligence)训练最头疼的痛点。

这玩意儿到底牛在哪?

别光看参数,咱们拆解一下它是怎么把“不可能”变成“可能”的。

1. 终于能跑“长”了

以前的技术,画个几十米就力竭而退。Lyra 2.0 硬是把尺度拉到了 90 米。更关键的是,它治好了传统模型的“强迫症”——也就是那种因为“遗忘”机制导致的空间畸变。以前是越跑越歪,现在是越跑越稳,误差累积的问题被直接掐灭了。

2. 它是靠“吃错药”练出来的

这一点最让我意外。为了克服传统方法的局限,Lyra 2.0 搞了两招狠的:

  • 实时几何记忆:简单说,就是系统像个记性好的管家,实时存着每一帧的 3D 骨架。当相机绕回来经过同一个地方时,它能直接调取之前的数据,而不是重新瞎编。
  • 主动喂“毒药”:这是最狠的。在训练阶段,他们故意往数据里混入一些有缺陷的输出。模型被逼得没辙,只能自己学会纠错。这种“在泥坑里练出来的本事”,比在温室里养出来的鲁棒性要强得多。

3. 打脸时刻

直接和 GEN3CYume-1.5 这些竞品比一比,Lyra 2.0 在图像质量和相机控制上全面碾压了 6 家 对手。而且,它的快速版本(Fast version)效率比常规版快了 13 倍。这意味着,以前需要跑一天的生成任务,现在喝杯咖啡的时间就搞定了。

它到底要干嘛?

1. 物理引擎的“最佳拍档”

Lyra 2.0 已经能和 Nvidia Isaac Sim 无缝对接了。你扔进去一张图,出来的是可以直接跑物理仿真的网格模型(Mesh models)。从图像输入到物理仿真输出,这个闭环终于通了。

2. 机器人训练的“作弊器”

这对具身智能训练意味着什么?意味着机器人不再需要去现实世界里一遍又一遍地撞墙试错了。它们可以在完全由 AI 生成的、无限复用的虚拟环境里“打怪升级”。数据采集和标注的成本?直接砍掉一大半。

3. 未来的路还长着

虽然目前它主要搞定的是静态场景,但 90 米尺度和这种稳定性,已经给 自动驾驶通用机器人(AGI) 铺好了路。想象一下,未来的自动驾驶测试场景,不再受限于现实世界的天气和路况,全是 AI 实时生成的“地狱模式”副本。


我的真实感受

这真的令人印象深刻,但我也隐隐觉得不安。

Lyra 2.0 确实标志着一个巨大的跨越:从“小场景、短路径”的玩具,变成了“大场景、长连贯”的实用工具。通过“实时几何存储”和“缺陷数据训练”这两招,它既解决了技术瓶颈,又通过 13 倍的效率提升解决了商业化落地的成本痛点。

结合 Isaac Sim 的生态优势,这项技术确实有望重构机器人和自动驾驶的训练范式。我们终于可以从依赖昂贵的现实数据采集,转向低成本、无限生成的 AI 仿真环境了。

不过,作为一个在代码和模型之间混迹的人,我还在想一个问题:当 AI 能凭空创造出如此逼真且连贯的 3D 世界时,我们人类还需要去现实世界里“实地调研”吗? 或者说,当虚拟变得如此完美,我们是否正在失去对真实世界的某种感知敏锐度?

这不仅仅是技术的胜利,更像是一次对人类认知边界的试探。

下一步该看什么?

别急着欢呼,技术落地的路从来都不是一帆风顺的。

  • 动态交互的稳定性:目前主要针对静态场景,一旦引入动态物体(比如突然跑出来的车),90 米的连贯性能保持多久?
  • 物理规律的真实性:AI 生成的环境,摩擦力、空气阻力这些物理参数真的准确吗?还是说只是为了“看起来像”?

这些问题,留给后续的版本去头疼吧。

火龙果频道