NVIDIA发布Jet-Nemotron:混合架构语言模型,推理速度提升53倍,成本降低98%
核心突破
- 性能提升:相比当前主流全注意力语言模型,生成速度提升53.6倍
- 成本降低:推理成本降低98%
- 参数规模:提供2B和4B两种参数版本
技术背景
现代语言模型(如Qwen3、Llama3.2、Gemma3)虽然在准确性和灵活性方面设定了新基准,但其O(n)自注意力机制导致高昂的计算和内存成本,特别是在处理长文本时,使得大规模部署成本极高,在边缘设备或内存受限设备上几乎无法实现。
核心技术:PostNAS
Jet-Nemotron的核心创新在于PostNAS技术,主要包括以下步骤:
- 选择先进模型:选择先进的全注意力模型(如Qwen2.5)并冻结其多层感知机(MLP)层
- 替换注意力模块:将计算成本高昂的全注意力模块替换为新的硬件高效线性注意力模块JetBlock
- 优化层位置:通过超网络训练和束搜索,自动确定全注意力层的最佳位置以保持特定任务的准确性
性能表现
- 准确性:2B模型在主要基准测试中与Qwen3-1.7B-Base相当或更优
- 生成吞吐量:提升47倍
- 解码速度:在256K上下文长度下提升53.6倍
行业影响
对企业
- 以更低成本实现更高的投资回报率
- 可在不改变数据管道的情况下改造现有模型
- 增强实时AI服务能力
对研究者
- 降低语言模型架构创新的成本
- 加速AI技术发展进程
项目关键点
- Jet-Nemotron相比现有模型实现53.6倍生成速度提升和98%推理成本降低
- PostNAS技术可在保持准确性的同时高效改造现有预训练模型
- 新模型发布使企业和研究者在成本和性能方面获得双重收益