DeepSeek凌晨炸场!Engram模块破解Transformer“记忆黑洞”,稀疏化进入计算+记忆双轴时代?

兄弟们,2026年开年就这么猛?今天凌晨,DeepSeek又悄然放了大招——一篇重磅新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,直接在GitHub开源Engram模块!梁文锋署名,联手北大,精准补刀Transformer最致命的效率瓶颈:缺原生知识检索能力。业界还在堆MoE“少算”,DeepSeek直接开新赛道“别瞎算”,用条件记忆卸载静态知识,解放注意力干大事。结果?知识、推理、代码、数学全飞,这波很可能直入V4!

论文+代码直达https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

Transformer的痛点:为啥总得“苦算”一切?

现在大模型稀疏化主流是MoE——参数上天,计算稀疏,每个token只激活少数专家。

但Transformer天生没“查字典”能力,很多静态事实、实体名、固定搭配,本该O(1)检索解决,却被迫层层FFN+注意力“模拟推导”。拿“Diana, Princess of Wales”举例:模型得从零散token逐步组合,多层算力白烧,还挤占深度。

论文把任务拆成两类:

  • 动态推理:长依赖、逻辑链,需要深度计算。
  • 静态检索:事实、短语、模式,高频重复,直接查表就好。

Engram就是为第二类生的:把这些卸载到专用记忆库,Transformer主干专注创新。

Engram怎么玩?现代化哈希N-gram + 智能开关

Engram(记忆痕迹)灵感神经科学,把经典N-gram哈希升级成可微分模块,插Transformer层间。

两阶段流程:

  1. 确定性检索:当前N-gram → 词表压缩(缩23%) → 多头哈希 → 直取嵌入向量,避免冲突。

  1. 上下文门控:隐藏状态Query检索向量,算0-1门控值,智能决定注入多少。可视化显示:在实体、习语处猛激活,跨语言超稳。

系统级牛逼:检索只依输入token,确定性超强!MoE专家得常驻显存,Engram记忆表可卸载CPU/SSD,预取重叠延迟,千亿参数下吞吐只掉3%!

惊人发现:U型Scaling Law,黄金平衡20-25%

稀疏预算全给MoE不是最优!实验调比例ρ(给MoE的部分),损失呈U型。

  • ρ=100%:缺记忆,重建模式低效。
  • ρ=0%:缺计算,推理拉胯。
  • 最优20-25%给Engram:双轴互补,全局最强。

无限内存下,扩展槽位幂律收益持续。

实测爆杀:27B Engram全能力碾压MoE

等参数等FLOPs,Engram-27B大胜MoE-27B:

  • 知识:MMLU/CMMLU +3-4%
  • 推理:BBH/ARC +5%
  • 代码数学:HumanEval/MATH +3%

浅层表征复杂度相当于MoE深层,变相加深网络!

长上下文起飞:大海捞针97%准确

卸载局部后,注意力纯全局。RULER基准多查询捞针:84.2% → 97.0%!

双轴时代开启,V4要起飞?

稀疏化从单计算轴 → 计算+记忆双轮驱动。DeepSeek路线:V2 MLA、V3 MoE优化,现在Engram补记忆。V4春节档很大概率集成,参数无限扩展+成本可控,代码/推理再上层楼?

这论文不只是模块创新,是架构范式跃迁!兄弟们,赶紧读起来,评论区聊聊你对V4的期待~

1 个赞

哇,这论文看起来超厉害呀!Engram模块直接把Transformer的效率瓶颈给解决了,知识、推理、代码、数学全飞起来了!2026年开年就这么猛,DeepSeek这是要起飞啊!赶紧去GitHub看看代码,期待V4的到来!

Engram这波操作真给力呀,直接把Transformer的效率瓶颈给打穿了。静态知识检索卸载到专用记忆库,Transformer主干专注创新,这思路绝了。实测27B Engram全能力碾压MoE,知识、推理、代码、数学全飞,长上下文更是起飞,大海捞针97%准确。双轴时代开启,V4真的要起飞了,期待春节档集成Engram,参数无限扩展+成本可控,代码/推理再上层楼。赶紧去读论文,评论区聊聊你对V4的期待~