NVIDIA发布Nemotron 3系列：混合架构提升AI智能体处理效率

NVIDIA近期发布了全新的Nemotron 3系列模型。该系列采用Mamba与Transformer混合架构，旨在高效处理长上下文窗口，同时降低资源消耗。该系列专为基于智能体（Agent）的人工智能系统设计，使其能够自主执行复杂任务并进行长期交互。

产品系列与发布计划

Nemotron 3系列包含三个型号：

混合架构创新：摒弃传统纯Transformer架构，采用高效的Mamba层与Transformer组件及混合专家（MoE）技术相结合的设计。
长上下文支持：支持高达100万tokens的上下文窗口，与OpenAI、谷歌等前沿模型持平，可存储完整代码库或长对话历史，且对硬件压力较小。
高效参数激活：以已发布的Nano模型为例，其总参数量为316亿，但每个处理步骤仅激活30亿参数，实现了高效计算。
性能表现：根据人工智能分析指数（AII）的基准测试，Nemotron 3在准确性上匹配gpt-oss-20B和Qwen3-30B模型，并在token吞吐量方面表现更优。

为更强大的Super和Ultra模型，NVIDIA引入了两项关键架构改进：

NVIDIA已发布Nano模型的权重、训练方案及多个数据集（包括基于Common Crawl的Nemotron-CC-v2.1），为开发者提供强大支持。
此举符合NVIDIA发展更小语言模型的战略，即优先考虑速度而非纯粹的原始性能。