2026 年 1 月,DeepSeek 团队在论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》中,正式推出条件记忆模块 Engram,彻底颠覆了大模型 “用计算模拟记忆” 的传统逻辑。其核心创新简单而致命:让 AI 学会 “查表” 而非 “推导” 静态知识,通过 “计算轴(MoE)+ 记忆轴(Engram)” 双稀疏设计,在不增加推理成本的前提下,让模型知识储备与推理效率实现双重飞跃,为 DeepSeek-V4 的千亿级规模扩张扫清了硬件障碍。
一、核心痛点:传统 LLM 的 “记忆浪费” 困境
传统 Transformer(包括 MoE 架构)存在一个结构性缺陷:用同一套昂贵的 GPU 算力,同时承担 “静态知识检索” 与 “动态推理计算” 两类完全不同的任务,导致算力严重浪费。
比如模型要识别 “Diana, Princess of Wales” 这一实体,传统架构需通过 6 层神经网络逐层推导(从 “Wales 是英国地区” 到 “Princess of Wales 是头衔”),用 O (d²) 复杂度的矩阵乘法,模拟本可 O (1) 完成的查表操作,算力浪费达 10 万倍。而这类静态知识(如实体名、公式、固定短语)占日常交互需求的 40% 以上,长期占用深度学习宝贵的注意力资源,导致深层推理能力受限。
MoE 架构虽通过 “条件计算” 实现参数稀疏激活,但仍未解决 “是否需要计算” 的根本矛盾 —— 对静态记忆任务,仍需调用专家网络进行无效运算;处理 32k 长文本时,局部依赖的重复计算还会导致全局上下文 “遗忘”,信息召回率不足 85%。
二、技术三支柱:让记忆检索快、省、准
Engram(神经科学中 “记忆痕迹” 的含义)通过三大核心机制,解决了传统 N-gram “存储爆炸” 与 “多义性” 两大痛点,实现静态知识的高效管理:
1. 分词器压缩:语义折叠省 23% 空间
传统 Tokenizer(如 BPE)会将 “DeepSeek”“deepseek”“Deepseek” 视为三个独立 Token,造成大量存储冗余。Engram 引入 “归一化折叠” 技术,通过 NFKC 规范化、大小写统一、词根等价映射,将语义相同但形式不同的 Token 映射为同一 ID,有效词表规模直接压缩 23%。这意味着同样的内存空间,Engram 可多存储近四分之一的知识点,从根源上降低 N-gram 组合复杂度。
2. 多头哈希:O (1) 常数级检索
这是 Engram 支持 PB 级记忆扩展的核心。传统向量检索(ANN)速度会随记忆量增加而变慢,而 Engram 采用确定性哈希设计:
-
多头并发:类似 Transformer 的 Multi-head Attention,通过 K 个独立哈希函数(如 MurmurHash)对 2-gram/3-gram 上下文计算索引地址(Ih = Hashh (Context) mod M,M 为记忆槽位总数);
-
常数级速度:无论记忆库是 1GB 还是 1TB,哈希计算时间固定,推理延迟可忽略;
-
冲突容错:不刻意避免哈希冲突,而是通过多头冗余备份 —— 头 A 冲突时,头 B 检索到的正确信息可通过门控机制占据主导,实验证明 3 个哈希头即可将冲突影响降低至 0.3% 以下。
3. 上下文感知门控:智能过滤噪声
检索到的记忆可能存在 “陈年旧账” 或无关信息(如写代码时搜到菜谱),Engram 通过动态门控机制解决这一问题:
-
门控信号生成:以当前层隐藏状态 Hnow 为 Query,检索到的记忆向量 V 为 Key/Value,计算 0-1 标量门控值 g,衡量二者相关性;
-
公式融合:Output = Hnow + Σ[gh (Hnow)・Vh],门控值趋近 0 时,自动屏蔽无关记忆;
-
多义性破解:对 “Apple” 这类多义词,可根据上下文动态激活 “水果” 或 “公司” 相关记忆,避免幻觉生成。
三、关键发现:U 型缩放定律,20%-25% 记忆分配最优
DeepSeek 在实验中发现一个有趣的 U 型曲线:在参数总量和计算量固定时,单纯依赖 MoE(全算力)或 Engram(全记忆)的效果均非最优,当 20%-25% 的稀疏参数分配给 Engram 时,模型综合性能达到峰值。
这一发现的核心意义在于:适当剥离静态记忆负担,能让注意力机制腾出精力处理更高层的全局逻辑 —— 就像让学生带一本百科全书进考场,无需死记硬背,可专注于解题推理。
四、性能爆发:知识、推理、长文本全面飞跃
实验数据显示,Engram-27B 在同等资源下全面超越纯 MoE 模型,验证了 “查算分离” 的巨大价值:
-
知识储备:MMLU 准确率提升 3.4 分,事实性问答错误率下降 28%;
-
通用推理:BBH 任务提升 5.0 分,证明减轻记忆负担能反哺深层推理能力;
-
长文本处理:在 Needle-in-a-Haystack(大海捞针)测试中,32k 上下文下信息检索准确率从 84.2% 飙升至 97%;
-
代码与数学:HumanEval Pass@1 达 40.8%,GSM8K 数学题准确率 60.6%,均优于同参数 MoE 模型。
五、系统级降维打击:GPU 显存解放,成本大减
Engram 最具产业价值的创新,在于系统层面的 “存储 - 计算” 解耦,彻底突破 GPU 显存瓶颈:
1. 确定性哈希带来的地址预见性
Engram 的检索索引仅依赖输入 Token 序列,与运行时隐藏状态无关 ——GPU 计算第五层 Attention 时,系统已能通过哈希算法算出第十层 Engram 需要的记忆地址,无需等待前层输出,打破了深度学习的计算依赖链。
2. 异步预取 + CPU 内存卸载
基于地址可预见性,Engram 可将千亿参数的记忆表存于廉价 CPU 内存(DRAM),而非昂贵 GPU 显存(HBM):
-
后台搬运:GPU 进行密集浮点运算时,控制器通过 PCIe 通道异步预取后续层所需记忆向量,存入显存 “高速缓存区”;
-
延迟掩盖:计算流转到 Engram 层时,数据已就绪,完美避开 PCIe 与 HBM 的带宽差距;
-
极低开销:挂载 1000 亿参数 Engram 表,推理延迟仅增加 3%,硬件成本降低 60%。
3. CXL 协议神助攻
支持 CXL(Compute Express Link)协议的服务器中,CPU 内存与 GPU 显存可划归同一地址空间,GPU 能以极低延迟直接读取内存中的 Engram 槽位。一台 8 卡 H100 服务器显存顶多 640GB,而配置 2TB-4TB 内存易如反掌,模型 “知识容量” 可瞬间扩大 5-10 倍。
六、深度解析:Engram 的底层逻辑突破
1. 地址预见性的三大来源
-
从 “状态依赖” 到 “序列依赖”:索引地址直接依赖输入 Token 原始序列,而非前层隐藏状态,Token 序列确定后即可提前算完所有地址;
-
固定哈希函数:选用 MurmurHash 等轻量确定性函数,GPU 计算第一层时,CPU 可瞬间算完后续所有 Engram 地址;
-
多头机制:既解决冲突容错,又能覆盖不同上下文长度,让模型兼顾短语与长句记忆。
2. 与推荐系统 Hash Embedding 的本质区别
表格
| 对比维度 | 推荐系统 Hash Embedding | DeepSeek Engram |
|---|---|---|
| 索引对象 | 离散特征 ID(UserID/ItemID) | 连续 N-gram Token 序列,索引语义组合 |
| 架构位置 | 第一层 Embedding 层,输入预处理 | Transformer 中间层,条件记忆模块 |
| 核心目的 | 压缩空间、处理特征冲突与冷启动 | 解放 GPU 算力,专注静态知识高效检索 |
3. 哈希冲突的意外价值
最新研究发现(Engram-Nine),完全消除高频 N-gram 的哈希冲突,并未持续降低模型损失 —— 冲突反而能起到隐性正则化作用,避免模型过度拟合静态知识。而 Engram 的多头哈希 + 门控机制,恰好平衡了冲突容错与正则化效果,无需刻意优化冲突问题。
七、产业影响:LLM 进入 “双稀疏” 时代
Engram 的推出,不仅让 DeepSeek-27B 实现性能飞跃,更重塑了大模型的架构设计逻辑:
-
硬件成本:CPU 内存替代 50% GPU 显存需求,千亿级模型部署成本降低 60%;
-
迭代速度:静态知识可通过记忆表更新快速迭代,无需重新训练模型,知识更新周期从月级缩短至天级;
-
生态扩展:为垂直领域模型提供 “基础模型 + 专业记忆表” 的轻量化方案,医疗、法律等行业模型训练成本降低 80%。
随着 Engram 与 DSA(稀疏注意力)、MoE 组成 “稀疏三巨头”,DeepSeek-V4 有望实现千万级上下文处理与千亿级参数规模,而推理成本仅为传统架构的 1/3。这场 “查算分离” 革命,正在让大模型从 “全能计算器” 进化为 “会查字典的推理专家”,GPU 算力终于能从无效记忆推导中解放,专注于真正需要深度思考的复杂任务。
