DeepSeek推出Engram模块:为稀疏大模型植入条件记忆轴,效率显著提升
概述
2026年1月15日,DeepSeek研究团队发布了一项创新技术——Engram模块。该模块旨在解决传统Transformer模型在处理重复知识时效率低下的问题,通过引入“条件记忆轴”机制,显著提升稀疏大语言模型(LLMs)的性能和效率。
技术背景与问题
传统Transformer模型在处理重复性知识时存在明显的资源浪费现象。每次遇到相同模式时,模型都需要重新计算,这不仅消耗计算深度,也浪费了大量计算资源。
Engram模块的核心设计
基本理念
Engram模块并非旨在取代现有的混合专家(MoE)模型,而是作为其补充。它将经典的N-gram嵌入技术现代化,转化为一个可扩展的查找存储库,查询复杂度为O(1)。
功能类比
Engram模块相当于模型的“快速记忆手册”,专门存储常见短语、实体和其他静态模式。这使得模型的核心网络能够专注于更复杂的推理和长程交互任务。
实验数据与性能表现
预训练测试
- 数据集规模:2620亿个token
- 参数分配:将稀疏参数预算的约20%-25%分配给Engram记忆模块
- 效果:模型验证损失得到显著优化
模型性能对比
在Engram-27B和Engram-40B模型的测试中,即使激活参数相同,这些模型在多个基准测试中均优于纯MoE基线模型:
| 测试领域 | 表现优势 |
|---|---|
| MMLU | 优于基线 |
| GSM8K | 优于基线 |
| 知识库 | 优于基线 |
| 推理能力 | 优于基线 |
| 代码生成 | 优于基线 |
| 数学能力 | 优于基线 |
长文本处理能力
- 上下文窗口:扩展到32,768个token
- 测试表现:
- 在多查询“大海捞针”(NIAH)任务中表现出更强的准确性
- 在变量跟踪任务中表现优异
技术优势与创新点
1. 创新架构
- 通过O(1)哈希查找高效检索静态知识
- 让模型核心更专注于逻辑推理
2. 性能飞跃
- 在相同计算资源下,集成Engram的27B和40B模型在关键排名(MMLU、数学、代码等)上超越传统MoE架构
3. 增强的长文本处理能力
- 显著提升模型在长上下文环境中的回忆能力
- 在32k长度的测试中表现良好
- 有效减少预测所需的层间损失
4. 深度提升
通过卸载静态重建任务,有效增加了模型的有效深度,使AI更加智能和高效。
技术意义
Engram模块的设计不仅增强了模型的知识库,还通过将静态重建任务卸载到专用模块,使模型能够更有效地利用计算资源。这一创新为大语言模型的效率优化提供了新的思路,特别是在处理重复性知识和长文本场景时表现出明显优势。
该技术的推出标志着大语言模型架构设计的一个重要进展,为未来AI模型在保持高性能的同时降低计算成本提供了可行路径。
