DeepSeek深夜重磅!梁文锋新论文Engram模块破解Transformer记忆难题,模型不再傻堆参数?

兄弟们,深夜炸裂!DeepSeek又又发新论文了,这次是梁文锋署名,联手北大直击Transformer的“记忆黑洞”——那个让大模型总得靠堆参数来“模拟检索”的致命弱点。33页干货满满,提出全新Engram模块,用条件记忆稀疏轴补MoE短板,实现O(1)知识查找。简单说:别再瞎算了,直接查!结果不光知识背得牢,推理、代码、数学全线起飞。这波可能直接融入V4,稀疏LLM新时代来临?

Transformer的“记忆痛点”:为啥总得堆参数?

现在大模型主流是MoE(混合专家),参数上天但计算稀疏化——每个token只激活少数专家,FLOPs控得住。但Transformer天生缺“原生知识查找”,很多实体、固定搭配、语法模式,本该O(1)查表解决,却被迫用层层注意力+FFN“模拟检索”。效率低,还挤占计算资源。结果?模型越大,越像在“苦算”而不是“聪明查”。

论文把语言建模拆成两类:

  • 组合与推理:长依赖、逻辑链条,需要动态计算。
  • 模式检索:实体名、短语、语法片段,局部稳定,直接查表就行。

Engram就是为后者量身定做:把这些“固定模式”移到廉价查表模块,解放Transformer主干专注高阶任务。

Engram核心:现代化哈希N-gram + 记忆开关

Engram(记忆痕迹)灵感来自神经学,是插在Transformer中间层的“可扩展查表模块”。它现代化了经典哈希N-gram嵌入,提供O(1)确定性检索。

关键设计:

  • 分词器压缩:用NFKC规范等手段,把128k词表缩23%,最大化语义密度。
  • 多头哈希检索:每个N-gram阶数分配K哈希头,避免冲突,直接映射到嵌入表。
  • 上下文感知门控:用隐藏状态作为Query,检索嵌入作为Key/Value,计算门控标量α(0-1),决定采纳多少记忆。还加短因果卷积扩感受野。

可视化结果超直观:门控在命名实体(如“Alexander the Great”)和固定短语(如“By the way”)上猛激活,跨语言泛化强(中文“四大发明”也认)。

系统优化:检索只依token序列,训练用模型并行,推理预取重叠,计算存储解耦——超适合大参数模型!

惊人发现:MoE与Engram的U型Scaling Law

Engram和MoE互补:一个管条件计算,一个管条件记忆。论文用分配比例ρ(稀疏预算给MoE的比例)实验,发现验证损失与ρ呈U型!

  • ρ=1(纯MoE):缺专用内存,重建模式低效。
  • ρ=0(纯Engram):缺动态计算,推理拉胯。
  • 最优在中间:平衡计算+记忆,整体最强。

无限内存下,扩展槽位遵循幂律,收益持续——Engram解锁更大扩展潜力。

实测碾压:27B Engram爆杀MoE基线

扩展到27B/40B参数,等参数等FLOPs下,Engram全面胜MoE!

  • 知识任务:MMLU +3.0,CMMLU +4.0
  • 推理:BBH +5.0,ARC +3.7
  • 代码/数学:HumanEval +3.0,GSM8K +2.2

不光知识涨,推理数学也飞——因为注意力解放了!

长上下文狂飙:32k性能起飞

卸载局部模式后,注意力专注全局。长上下文训练下,Engram在检索/推理上大胜MoE。

等Loss/等FLOPs下,优势明显;甚至82%计算量就竞争力满满。长上下文性能挂钩基座能力,Engram效率更高。

双轴时代来临:V4或将集成Engram?

稀疏化进入“计算+记忆”双轴:MoE管动态,Engram管静态。U型定律证明,全给MoE不是最优;Engram结构性收益大,还工程友好。


DeepSeek路线:V2 MLA提升推理,V3优化MoE。V4据传代码超Claude/ChatGPT,春节档落地Engram?参数规模+架构跃迁,期待爆棚!

兄弟们,这论文太有料了,赶紧去读!评论区聊聊你的脑洞~

1 个赞

这个机制再加上搭配类似于华为的内存和硬盘池化存储技术,是不是可能千亿参数模型也可以放到个人PC上运行?

Engram模块确实是个大突破,直接解决了Transformer的记忆痛点。O(1)知识查找让模型效率飙升,推理和代码能力也跟着起飞。看来V4集成Engram是板上钉钉了,期待春节档的发布!

卧槽这波操作太骚了!梁文锋直接给Transformer开挂啊 以后模型不用死算直接查表 感觉要掀起新一轮军备竞赛了 赶紧去github围观一波

深夜刷到这论文真睡不着了!Engram这设计确实巧妙,把哈希检索和门控结合得这么丝滑。梁文锋团队这次真戳中Transformer痛点了,等V4实测效果!