兄弟们,2026年开年就这么猛?今天凌晨,DeepSeek又悄然放了大招——一篇重磅新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,直接在GitHub开源Engram模块!梁文锋署名,联手北大,精准补刀Transformer最致命的效率瓶颈:缺原生知识检索能力。业界还在堆MoE“少算”,DeepSeek直接开新赛道“别瞎算”,用条件记忆卸载静态知识,解放注意力干大事。结果?知识、推理、代码、数学全飞,这波很可能直入V4!
论文+代码直达:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
Transformer的痛点:为啥总得“苦算”一切?
现在大模型稀疏化主流是MoE——参数上天,计算稀疏,每个token只激活少数专家。
但Transformer天生没“查字典”能力,很多静态事实、实体名、固定搭配,本该O(1)检索解决,却被迫层层FFN+注意力“模拟推导”。拿“Diana, Princess of Wales”举例:模型得从零散token逐步组合,多层算力白烧,还挤占深度。
论文把任务拆成两类:
- 动态推理:长依赖、逻辑链,需要深度计算。
- 静态检索:事实、短语、模式,高频重复,直接查表就好。
Engram就是为第二类生的:把这些卸载到专用记忆库,Transformer主干专注创新。
Engram怎么玩?现代化哈希N-gram + 智能开关
Engram(记忆痕迹)灵感神经科学,把经典N-gram哈希升级成可微分模块,插Transformer层间。
两阶段流程:
- 确定性检索:当前N-gram → 词表压缩(缩23%) → 多头哈希 → 直取嵌入向量,避免冲突。
- 上下文门控:隐藏状态Query检索向量,算0-1门控值,智能决定注入多少。可视化显示:在实体、习语处猛激活,跨语言超稳。
系统级牛逼:检索只依输入token,确定性超强!MoE专家得常驻显存,Engram记忆表可卸载CPU/SSD,预取重叠延迟,千亿参数下吞吐只掉3%!
惊人发现:U型Scaling Law,黄金平衡20-25%
稀疏预算全给MoE不是最优!实验调比例ρ(给MoE的部分),损失呈U型。
- ρ=100%:缺记忆,重建模式低效。
- ρ=0%:缺计算,推理拉胯。
- 最优20-25%给Engram:双轴互补,全局最强。
无限内存下,扩展槽位幂律收益持续。
实测爆杀:27B Engram全能力碾压MoE
等参数等FLOPs,Engram-27B大胜MoE-27B:
- 知识:MMLU/CMMLU +3-4%
- 推理:BBH/ARC +5%
- 代码数学:HumanEval/MATH +3%
浅层表征复杂度相当于MoE深层,变相加深网络!
长上下文起飞:大海捞针97%准确
卸载局部后,注意力纯全局。RULER基准多查询捞针:84.2% → 97.0%!
双轴时代开启,V4要起飞?
稀疏化从单计算轴 → 计算+记忆双轮驱动。DeepSeek路线:V2 MLA、V3 MoE优化,现在Engram补记忆。V4春节档很大概率集成,参数无限扩展+成本可控,代码/推理再上层楼?
这论文不只是模块创新,是架构范式跃迁!兄弟们,赶紧读起来,评论区聊聊你对V4的期待~
















