过去几年,大模型进化几乎被一个结构主导:Transformer。
从GPT到LLaMA,从Claude到Gemini,参数规模不断膨胀,但底层逻辑鲜有根本变革。
直到最近,DeepSeek团队发布一篇论文,从一个长期被忽视的问题入手,对Transformer的“能力边界”提出全新解法。
这不是常规性能优化,而是一次对“模型如何记住知识”的深刻重构。
大模型应“记住”,而非反复“计算”
Transformer已成为大模型默认架构,但梁文锋提出一个朴实却颠覆性的问题:
如果模型面对的是训练中反复出现的稳定知识,为什么还要每次重新计算?
整篇论文围绕这一核心展开。
Transformer的局限:并非“不够强”
论文开头并未否定Transformer的成功。梁文锋明确指出:Transformer在表达能力和上下文建模上,仍是最有效结构之一。
问题在于,其设计初衷是“建模关系”,而非“存储知识”。
现有架构下,所有信息——无论固定事实还是临时推理——都被压入注意力机制反复计算。
结果:模型“思考”时,同时处理大量“本可避免”的冗余运算。
核心观点:记忆与计算应分离
梁文锋的关键洞见:静态、高频、可复用信息,不应每次通过注意力重新推导。
为此,他引入全新模块:Engram。
Engram并非外挂知识库,而是模型内部组件。其作用明确:
- 记录训练中反复出现的稳定模式
- 以近似确定性方式快速匹配检索
- 在合适场景下,直接提供结果给主模型
于是,面对某些输入,模型不再通过多层注意力“算出”答案,而是判断:“这是否已存储,可直接调用?”
为什么这一步至关重要?
论文强调:注意力机制算力成本高企。对于高度确定信息,继续使用注意力本质是浪费。
这种浪费带来三重后果:
- 算力无效占用
- 表达空间被静态知识挤压
- 长上下文性能明显下降
引入Engram,本质是将“不需思考”的内容,从“思考通道”中分离。
实验结果:推理能力被“释放”
梁文锋未追求“碾压式”指标,而是严格控制变量:在相近参数与计算量下,搭载Engram的模型,在多项语言理解与推理任务中,稳定优于纯Transformer或MoE对照组。
论文证明的不是“模型多强”,而是更深结论:显式记忆结构存在时,推理能力反而得以释放。
梁文锋的长期关切
工程层面,这可视为效率优化。但从论文论证看,梁文锋更在意长远问题:大模型是否需如人类般,区分“记住的知识”与“正在思考的内容”?
他的答案是肯定的:Transformer专注推理,Engram专注记忆,各司其职。
写在最后
这篇论文的价值,不在于复杂新模块,而在于直指一个被默认接受、却可能不合理的前提——一切交给注意力解决。
随着模型规模扩大,这一前提代价将愈发高昂。
论文未给出终极答案,但开辟了一个重要方向:让大模型真正“记住”,而非永远“现算”。
若这一方向成立,其影响将超越DeepSeek,塑造整个大模型架构的下一演化阶段。


