兄弟们,深夜炸裂!DeepSeek又又发新论文了,这次是梁文锋署名,联手北大直击Transformer的“记忆黑洞”——那个让大模型总得靠堆参数来“模拟检索”的致命弱点。33页干货满满,提出全新Engram模块,用条件记忆稀疏轴补MoE短板,实现O(1)知识查找。简单说:别再瞎算了,直接查!结果不光知识背得牢,推理、代码、数学全线起飞。这波可能直接融入V4,稀疏LLM新时代来临?
Transformer的“记忆痛点”:为啥总得堆参数?
现在大模型主流是MoE(混合专家),参数上天但计算稀疏化——每个token只激活少数专家,FLOPs控得住。但Transformer天生缺“原生知识查找”,很多实体、固定搭配、语法模式,本该O(1)查表解决,却被迫用层层注意力+FFN“模拟检索”。效率低,还挤占计算资源。结果?模型越大,越像在“苦算”而不是“聪明查”。
论文把语言建模拆成两类:
- 组合与推理:长依赖、逻辑链条,需要动态计算。
- 模式检索:实体名、短语、语法片段,局部稳定,直接查表就行。
Engram就是为后者量身定做:把这些“固定模式”移到廉价查表模块,解放Transformer主干专注高阶任务。
Engram核心:现代化哈希N-gram + 记忆开关
Engram(记忆痕迹)灵感来自神经学,是插在Transformer中间层的“可扩展查表模块”。它现代化了经典哈希N-gram嵌入,提供O(1)确定性检索。
关键设计:
- 分词器压缩:用NFKC规范等手段,把128k词表缩23%,最大化语义密度。
- 多头哈希检索:每个N-gram阶数分配K哈希头,避免冲突,直接映射到嵌入表。
- 上下文感知门控:用隐藏状态作为Query,检索嵌入作为Key/Value,计算门控标量α(0-1),决定采纳多少记忆。还加短因果卷积扩感受野。
可视化结果超直观:门控在命名实体(如“Alexander the Great”)和固定短语(如“By the way”)上猛激活,跨语言泛化强(中文“四大发明”也认)。
系统优化:检索只依token序列,训练用模型并行,推理预取重叠,计算存储解耦——超适合大参数模型!
惊人发现:MoE与Engram的U型Scaling Law
Engram和MoE互补:一个管条件计算,一个管条件记忆。论文用分配比例ρ(稀疏预算给MoE的比例)实验,发现验证损失与ρ呈U型!
- ρ=1(纯MoE):缺专用内存,重建模式低效。
- ρ=0(纯Engram):缺动态计算,推理拉胯。
- 最优在中间:平衡计算+记忆,整体最强。
无限内存下,扩展槽位遵循幂律,收益持续——Engram解锁更大扩展潜力。
实测碾压:27B Engram爆杀MoE基线
扩展到27B/40B参数,等参数等FLOPs下,Engram全面胜MoE!
- 知识任务:MMLU +3.0,CMMLU +4.0
- 推理:BBH +5.0,ARC +3.7
- 代码/数学:HumanEval +3.0,GSM8K +2.2
不光知识涨,推理数学也飞——因为注意力解放了!
长上下文狂飙:32k性能起飞
卸载局部模式后,注意力专注全局。长上下文训练下,Engram在检索/推理上大胜MoE。
等Loss/等FLOPs下,优势明显;甚至82%计算量就竞争力满满。长上下文性能挂钩基座能力,Engram效率更高。
双轴时代来临:V4或将集成Engram?
稀疏化进入“计算+记忆”双轴:MoE管动态,Engram管静态。U型定律证明,全给MoE不是最优;Engram结构性收益大,还工程友好。
DeepSeek路线:V2 MLA提升推理,V3优化MoE。V4据传代码超Claude/ChatGPT,春节档落地Engram?参数规模+架构跃迁,期待爆棚!
兄弟们,这论文太有料了,赶紧去读!评论区聊聊你的脑洞~



















