DeepSeek推出Engram模块：为稀疏大模型植入条件记忆轴，效率显著提升

概述

2026年1月15日，DeepSeek研究团队发布了一项创新技术——Engram模块。该模块旨在解决传统Transformer模型在处理重复知识时效率低下的问题，通过引入“条件记忆轴”机制，显著提升稀疏大语言模型（LLMs）的性能和效率。

技术背景与问题

传统Transformer模型在处理重复性知识时存在明显的资源浪费现象。每次遇到相同模式时，模型都需要重新计算，这不仅消耗计算深度，也浪费了大量计算资源。

Engram模块的核心设计

基本理念

Engram模块并非旨在取代现有的混合专家（MoE）模型，而是作为其补充。它将经典的N-gram嵌入技术现代化，转化为一个可扩展的查找存储库，查询复杂度为O(1)。

功能类比

Engram模块相当于模型的“快速记忆手册”，专门存储常见短语、实体和其他静态模式。这使得模型的核心网络能够专注于更复杂的推理和长程交互任务。

实验数据与性能表现

预训练测试

数据集规模：2620亿个token
参数分配：将稀疏参数预算的约20%-25%分配给Engram记忆模块
效果：模型验证损失得到显著优化

模型性能对比

在Engram-27B和Engram-40B模型的测试中，即使激活参数相同，这些模型在多个基准测试中均优于纯MoE基线模型：

测试领域	表现优势
MMLU	优于基线
GSM8K	优于基线
知识库	优于基线
推理能力	优于基线
代码生成	优于基线
数学能力	优于基线

长文本处理能力

上下文窗口：扩展到32,768个token
测试表现：
- 在多查询“大海捞针”（NIAH）任务中表现出更强的准确性
- 在变量跟踪任务中表现优异

技术优势与创新点

1. 创新架构

通过O(1)哈希查找高效检索静态知识
让模型核心更专注于逻辑推理

2. 性能飞跃

在相同计算资源下，集成Engram的27B和40B模型在关键排名（MMLU、数学、代码等）上超越传统MoE架构

3. 增强的长文本处理能力

显著提升模型在长上下文环境中的回忆能力
在32k长度的测试中表现良好
有效减少预测所需的层间损失

4. 深度提升

通过卸载静态重建任务，有效增加了模型的有效深度，使AI更加智能和高效。

技术意义

Engram模块的设计不仅增强了模型的知识库，还通过将静态重建任务卸载到专用模块，使模型能够更有效地利用计算资源。这一创新为大语言模型的效率优化提供了新的思路，特别是在处理重复性知识和长文本场景时表现出明显优势。

该技术的推出标志着大语言模型架构设计的一个重要进展，为未来AI模型在保持高性能的同时降低计算成本提供了可行路径。

火龙果频道

近期新闻

AI-NEWS · 2026年 1月 16日

DeepSeek植入记忆轴效率提升

DeepSeek推出Engram模块：为稀疏大模型植入条件记忆轴，效率显著提升

概述

技术背景与问题

Engram模块的核心设计

基本理念

功能类比

实验数据与性能表现

预训练测试

模型性能对比

长文本处理能力

技术优势与创新点

1. 创新架构

2. 性能飞跃

3. 增强的长文本处理能力

4. 深度提升

技术意义

您可能还喜欢...

AI-NEWS · 2026年 1月 16日

DeepSeek推出Engram模块：为稀疏大模型植入条件记忆轴，效率显著提升

概述

技术背景与问题

Engram模块的核心设计

基本理念

功能类比

实验数据与性能表现

预训练测试

模型性能对比

长文本处理能力

技术优势与创新点

1. 创新架构

2. 性能飞跃

3. 增强的长文本处理能力

4. 深度提升

技术意义

您可能还喜欢...

AI之父预言就业变革

中国知网CNKI宣布上线新版首页 新增AI增强检索、AI学术研究助手等功能

AI拒超25万政治图请求保公正投票！

中国知网CNKI宣布上线新版首页新增AI增强检索、AI学术研究助手等功能