NVIDIA发布Nemotron 3系列:混合架构提升AI智能体处理效率
NVIDIA近期发布了全新的Nemotron 3系列模型。该系列采用Mamba与Transformer混合架构,旨在高效处理长上下文窗口,同时降低资源消耗。该系列专为基于智能体(Agent)的人工智能系统设计,使其能够自主执行复杂任务并进行长期交互。
产品系列与发布计划
Nemotron 3系列包含三个型号:
- Nano:已正式发布。
- Super:预计于2026年上半年推出。
- Ultra:预计于2026年上半年推出。
核心架构与技术特点
- 混合架构创新:摒弃传统纯Transformer架构,采用高效的Mamba层与Transformer组件及混合专家(MoE)技术相结合的设计。
- 长上下文支持:支持高达100万tokens的上下文窗口,与OpenAI、谷歌等前沿模型持平,可存储完整代码库或长对话历史,且对硬件压力较小。
- 高效参数激活:以已发布的Nano模型为例,其总参数量为316亿,但每个处理步骤仅激活30亿参数,实现了高效计算。
- 性能表现:根据人工智能分析指数(AII)的基准测试,Nemotron 3在准确性上匹配gpt-oss-20B和Qwen3-30B模型,并在token吞吐量方面表现更优。
面向高阶模型的关键改进
为更强大的Super和Ultra模型,NVIDIA引入了两项关键架构改进:
- LatentMoE:旨在解决标准MoE模型中的内存带宽开销问题。其方法是在处理前将tokens投影为压缩的潜在表示。
- 多令牌预测(MTP)技术:在训练期间同时预测多个令牌,从而提升文本生成速度和逻辑推理能力。
开发者支持与战略方向
NVIDIA已发布Nano模型的权重、训练方案及多个数据集(包括基于Common Crawl的Nemotron-CC-v2.1),为开发者提供强大支持。
此举符合NVIDIA发展更小语言模型的战略,即优先考虑速度而非纯粹的原始性能。
要点总结
- Nemotron 3系列通过Mamba与Transformer混合架构,提升AI智能体效率。
- Nano模型现已可用,Super和Ultra型号预计2026年上半年发布。
- NVIDIA开源了模型权重和训练数据集,以助力开发者创新。
