AI-NEWS · 2025年 12月 19日

英伟达发布Nemotron 3

NVIDIA发布Nemotron 3系列:混合架构提升AI智能体处理效率

NVIDIA近期发布了全新的Nemotron 3系列模型。该系列采用Mamba与Transformer混合架构,旨在高效处理长上下文窗口,同时降低资源消耗。该系列专为基于智能体(Agent)的人工智能系统设计,使其能够自主执行复杂任务并进行长期交互。

产品系列与发布计划

Nemotron 3系列包含三个型号:

  • Nano已正式发布
  • Super:预计于2026年上半年推出。
  • Ultra:预计于2026年上半年推出。

核心架构与技术特点

  1. 混合架构创新:摒弃传统纯Transformer架构,采用高效的Mamba层与Transformer组件及混合专家(MoE)技术相结合的设计。
  2. 长上下文支持:支持高达100万tokens的上下文窗口,与OpenAI、谷歌等前沿模型持平,可存储完整代码库或长对话历史,且对硬件压力较小。
  3. 高效参数激活:以已发布的Nano模型为例,其总参数量为316亿,但每个处理步骤仅激活30亿参数,实现了高效计算。
  4. 性能表现:根据人工智能分析指数(AII)的基准测试,Nemotron 3在准确性上匹配gpt-oss-20BQwen3-30B模型,并在token吞吐量方面表现更优。

面向高阶模型的关键改进

为更强大的Super和Ultra模型,NVIDIA引入了两项关键架构改进:

  • LatentMoE:旨在解决标准MoE模型中的内存带宽开销问题。其方法是在处理前将tokens投影为压缩的潜在表示。
  • 多令牌预测(MTP)技术:在训练期间同时预测多个令牌,从而提升文本生成速度和逻辑推理能力。

开发者支持与战略方向

NVIDIA已发布Nano模型的权重、训练方案及多个数据集(包括基于Common Crawl的Nemotron-CC-v2.1),为开发者提供强大支持。
此举符合NVIDIA发展更小语言模型的战略,即优先考虑速度而非纯粹的原始性能。

要点总结

  • Nemotron 3系列通过Mamba与Transformer混合架构,提升AI智能体效率。
  • Nano模型现已可用,Super和Ultra型号预计2026年上半年发布。
  • NVIDIA开源了模型权重和训练数据集,以助力开发者创新。

火龙果频道