DeepSeek 突发梁文锋署名新论文:V4 新架构提前曝光?

2026年1月,DeepSeek携手北京大学联合发布重磅论文,正式提出并开源Engram——一种专为大型语言模型量身打造的条件记忆(Conditional Memory)模块。DeepSeek创始人梁文峰亲自挂名共同作者,足见其重视程度。

这项研究直击大模型核心痛点:传统Transformer依赖海量计算“硬模拟”知识检索,效率低下。团队开创性地将条件记忆定位为全新建模维度与稀疏性方向,与MoE的条件计算完美互补,精准契合语言的二元本质——动态组合推理静态知识检索

更令人振奋的是,元旦假期DeepSeek刚抛出mHC(流形约束超连接)架构创新,短短半月连发两篇顶级论文。业界已普遍猜测:DeepSeek-V4极有可能在春节前夕惊艳亮相,再次点燃开源社区热情!

条件记忆:稀疏性的全新突破维度

A Visual Guide to Mixture of Experts (MoE)

稀疏性一直是现代智能系统的核心原则,目前主要通过MoE的条件计算实现容量扩展,并已收获巨大成功。

但语言信号的内在异质性暴露了进一步优化空间:语言建模本质上分为两大子任务——需要动态计算的组合推理,以及更适合静态查表的知识检索

DeepSeek团队大胆提出:条件记忆可作为MoE的完美互补稀疏维度,与语言二元性高度对齐。

论文中最振奋人心的发现是:精心设计的静态检索机制,能够成为当代MoE架构的理想补充

Engram:经典N-gram的现代重生

![DeepSeek introduces Engram: Memory lookup module for LLMs that …](Reddit - 全网主阵地?

团队据此打造了Engram——一个根植于经典N-gram结构,却融入多项现代优化的条件记忆模块:

  • 分词器压缩(Tokenizer Compression)
  • 多头哈希(Multi-Head Hashing)
  • 上下文门控(Context Gating)
  • 多分支集成(Multi-Branch Ensemble)

同时,研究首次系统探讨稀疏性分配难题:在固定参数预算下,MoE专家与Engram记忆容量该如何最优分配?

实验揭示清晰的U型缩放定律:即使是最简查表机制,一旦被提升为“一等公民”建模原语,就能大幅提升整体神经计算效率。

实证碾压:Engram-27B全面领先MoE基线

A comparison of LLMs: Evaluating the top large language models

在该定律指引下,Engram扩展至27B规模。与同参数、同FLOPs的纯MoE-27B基线相比,Engram-27B实现全领域效率跃升

  • 知识密集任务大幅领先
  • 通用推理、代码、数学等领域提升尤为显著
  • 长上下文场景表现突出

机制剖析显示:

  • Engram大幅减轻主干网络早期层“重建静态知识”的负担,释放更多层深度用于复杂推理
  • 注意力机制得以专注全局上下文,长序列建模能力显著增强

基础设施友好:绕过GPU瓶颈的巧妙设计

不同于MoE的动态路由,Engram采用确定性ID,支持运行时预取,实现通信与计算无缝重叠。

实测显示,即使卸载100B参数表至主机内存,开销也仅<3%,成功突破GPU显存壁垒,为参数规模激进扩展铺平道路。

从稠密到稀疏:预训练性能全面跃升

预训练对比实验进一步坐实:

  • 稀疏架构(MoE-27B、Engram-27B/40B)在同计算预算下,全面碾压Dense-4B基线
  • Engram-27B持续超越MoE-27B,证明专用知识查表原语比单纯条件计算更高效
  • Engram-40B进一步压低预训练损失(部分任务尚未完全超27B,或因欠拟合)

表征对齐分析显示,Engram变体KL散度更小、收敛曲线更陡——模型能更快融合特征、在更早层输出高置信预测。

论文结语展望:条件记忆将成为下一代稀疏模型不可或缺的核心原语

研发“弹药”充沛,V4传闻引爆热议

近期智谱、MiniMax接连港股上市,财报显示大模型研发仍处“烧钱”高峰,DeepSeek自然也不例外。

但DeepSeek背靠母公司幻方量化,资金后盾雄厚。据彭博社报道,2025年幻方量化平均收益率高达56.6%,管理规模超700亿元,为DeepSeek持续创新提供源源不断的“弹药”。

据The Information最新爆料,知情人士透露DeepSeek-V4计划2月中旬发布,有望再度逼近甚至超越Claude、GPT旗舰水平。网友调侃:“求别在大年三十晚上整活儿!”

然而,市场质疑声也在升温:面对中美算力差距,DeepSeek能否继续缔造开源传奇?

你怎么看?DeepSeek会再创奇迹,还是这次触及天花板?

欢迎评论区畅所欲言,一起见证2026年开源大模型新王者的诞生!

Engram牛啊

深夜刷到这 有点意思哈