DeepSeek 联合北京大学研究团队发布全新技术 Engram,提出 Transformer 与 MoE 架构之外的另一稀疏性维度 —— 条件记忆(Conditional Memory)。这项技术通过分离模型的「计算」与「记忆」功能,让静态知识通过高效查表获取,动态推理专注于复杂逻辑,从根源上解决大模型资源浪费问题。作为聚焦 DeepSeek 生态的社区,我们带大家深度拆解这项技术的核心设计与革新价值。
一、核心痛点:大模型「计算与记忆混为一谈」的低效困境
当代 LLM 存在一个关键矛盾:将动态逻辑推理(如「A 发生后 B 的结果」)与静态知识记忆(如「华盛顿是美国第一任总统」)混同,全部通过 Attention 和 FFN 神经计算完成。这种模式如同人类每次计算都需调动全部大脑推理区域,而非直接提取记忆,造成极大资源浪费。
Transformer 架构缺乏原生知识查找机制,导致简单的静态知识检索也需通过多层复杂计算模拟。例如处理「Princess of Wales」这一固定短语时,模型需经过 3-4 层网络才能凝聚成完整实体概念,占用大量网络深度与注意力带宽,用高成本计算完成本可高效查表的任务。
二、技术革新:Engram 条件记忆,实现「计算 + 记忆」双重稀疏化
Engram 并非替代 MoE,而是与之形成互补,构建「双重稀疏化」架构:
-
MoE(条件计算):聚焦「谁来算」,针对动态逻辑推理,通过路由器稀疏激活少数专家网络,适配上下文依赖的复杂任务;
-
Engram(条件记忆):聚焦「用什么知识」,针对静态固定知识,通过稀疏查表直接检索知识向量,操作复杂度为 O (1),与记忆表大小无关,不增加额外计算量。
两者分工明确:组合推理、数学解题、代码生成等任务由 MoE 负责,固定实体、常用短语、公式化知识等由 Engram 处理,让模型资源聚焦核心需求。
三、架构设计:可插拔记忆模块的「查表 - 融合」全流程
Engram 作为可插拔模块嵌入 Transformer 层,核心流程分为三步,兼顾高效与灵活:
1. 触发查表:基于 N-gram 构建查询键
Engram 仅关注当前位置结尾的最近几个词(N-gram 后缀),如处理「Wales」时,会构建 1-gram(Wales)、2-gram(of, Wales)、3-gram(Princess, of, Wales)作为查询线索。这种局部上下文策略契合静态知识的特性,无需全局语境即可确定含义,确保查表快速独立。
2. 稀疏检索:哈希技术实现海量记忆高效访问
为解决记忆表规模过大与哈希冲突问题,Engram 采用两项核心技巧:
-
分词器压缩:将 Token ID 规范化(如统一小写),避免同一词变体触发不同记忆,提升记忆利用率;
-
多哈希头检索:通过 K 个独立哈希函数映射 N-gram 至记忆表索引,拼接 K 个向量作为最终静态记忆向量,有效规避冲突,确保检索准确性。
3. 智能融合:门控机制适配动态语境
查找到的静态记忆向量需结合上下文灵活使用,Engram 引入门控融合机制:
-
记忆投影:将记忆向量转化为「记忆键」和「记忆值」;
-
相关性计算:以当前 Transformer 层隐藏状态为「查询」,与「记忆键」计算相似度,通过 Sigmoid 函数生成 0-1 门控值;
-
条件激活:门控值趋近 1 时(语境与静态模式一致),全额融入记忆值;趋近 0 时(语境不符或存在噪音),屏蔽该记忆,避免干扰推理;
-
局部平滑与残差连接:通过轻量卷积优化相邻位置记忆交流,再通过残差连接将记忆信息融入主干网络隐藏状态。
四、资源分配:MoE 与 Engram 的最优配比
在固定总参数量与激活参数量约束下,DeepSeek 团队通过实验发现 MoE 与 Engram 的资源分配存在「U 型曲线」规律:
-
纯 MoE 或纯 Engram 模型损失均较高,单一稀疏化模式无法兼顾计算与记忆需求;
-
最优配比为 Engram 占比 75%-80%,MoE 占比 20%-25%,即通过部分「计算潜力」换取「记忆潜力」,实现模型整体性能最优。
五、核心价值:不止提升记忆,更强化推理与长上下文能力
Engram 的革新价值远超静态知识检索,对模型能力形成全方位赋能:
-
提升有效推理深度:Engram 在早期层完成局部模式「基础建设」,直接注入高质量语义向量,让深层网络专注于高阶逻辑推理。实验显示,MoE+Engram 模型在第 L 层的理解成熟度,相当于纯 MoE 模型第 L+K 层水平;
-
解放注意力资源:接手局部依赖建模后,注意力机制可专注于长距离全局依赖,显著提升长文本处理性能;
-
工程部署优势:查表键完全依赖输入 Token ID,可提前预知查询位置,通过「CPU 预处理 + 异步预取 + 分层存储」架构,将记忆表存于廉价存储(CPU 主存、SSD),仅将所需条目预取至 GPU HBM,额外延迟控制在 3% 以内,大幅降低部署成本。
六、技术意义:大模型效率优化的新方向
Engram 的发布,为大模型技术演进提供了全新思路 —— 通过功能分离实现资源精准分配,而非单纯堆砌参数。这项技术不仅让 DeepSeek 模型在知识密集型任务(MMLU)中表现提升,更在通用推理、代码、数学(BBH, MATH)等核心场景实现突破,验证了「计算 + 记忆」双重稀疏化的可行性。
作为 DeepSeek 生态的重要技术创新,Engram 已展现出巨大应用潜力。后续我们将持续跟进技术落地进展,推出相关部署教程与实战案例。你对这项条件记忆技术有哪些应用设想?欢迎在评论区分享你的见解!