AI-NEWS · 2026年 1月 16日

DeepSeek植入记忆轴效率提升

DeepSeek推出Engram模块:为稀疏大模型植入条件记忆轴,效率显著提升

概述

2026年1月15日,DeepSeek研究团队发布了一项创新技术——Engram模块。该模块旨在解决传统Transformer模型在处理重复知识时效率低下的问题,通过引入“条件记忆轴”机制,显著提升稀疏大语言模型(LLMs)的性能和效率。

技术背景与问题

传统Transformer模型在处理重复性知识时存在明显的资源浪费现象。每次遇到相同模式时,模型都需要重新计算,这不仅消耗计算深度,也浪费了大量计算资源。

Engram模块的核心设计

基本理念

Engram模块并非旨在取代现有的混合专家(MoE)模型,而是作为其补充。它将经典的N-gram嵌入技术现代化,转化为一个可扩展的查找存储库,查询复杂度为O(1)。

功能类比

Engram模块相当于模型的“快速记忆手册”,专门存储常见短语、实体和其他静态模式。这使得模型的核心网络能够专注于更复杂的推理和长程交互任务。

实验数据与性能表现

预训练测试

  • 数据集规模:2620亿个token
  • 参数分配:将稀疏参数预算的约20%-25%分配给Engram记忆模块
  • 效果:模型验证损失得到显著优化

模型性能对比

在Engram-27B和Engram-40B模型的测试中,即使激活参数相同,这些模型在多个基准测试中均优于纯MoE基线模型:

测试领域 表现优势
MMLU 优于基线
GSM8K 优于基线
知识库 优于基线
推理能力 优于基线
代码生成 优于基线
数学能力 优于基线

长文本处理能力

  • 上下文窗口:扩展到32,768个token
  • 测试表现
    • 在多查询“大海捞针”(NIAH)任务中表现出更强的准确性
    • 在变量跟踪任务中表现优异

技术优势与创新点

1. 创新架构

  • 通过O(1)哈希查找高效检索静态知识
  • 让模型核心更专注于逻辑推理

2. 性能飞跃

  • 在相同计算资源下,集成Engram的27B和40B模型在关键排名(MMLU、数学、代码等)上超越传统MoE架构

3. 增强的长文本处理能力

  • 显著提升模型在长上下文环境中的回忆能力
  • 在32k长度的测试中表现良好
  • 有效减少预测所需的层间损失

4. 深度提升

通过卸载静态重建任务,有效增加了模型的有效深度,使AI更加智能和高效。

技术意义

Engram模块的设计不仅增强了模型的知识库,还通过将静态重建任务卸载到专用模块,使模型能够更有效地利用计算资源。这一创新为大语言模型的效率优化提供了新的思路,特别是在处理重复性知识和长文本场景时表现出明显优势。

该技术的推出标志着大语言模型架构设计的一个重要进展,为未来AI模型在保持高性能的同时降低计算成本提供了可行路径。

火龙果频道