期待值拉满!DeepSeek发布开年第二篇新论文,传“V4”模型或于2月中旬问世

距离DeepSeek新一代模型发布,或许已近在咫尺。

2026年1月,DeepSeek与北京大学联合发表重磅论文,正式提出并开源Engram——一种专为大型语言模型设计的条件记忆(Conditional Memory)模块。DeepSeek创始人梁文峰亲自参与该研究,作为共同作者之一。

这项工作直击当前大模型的核心痛点:传统Transformer通过海量计算“模拟”知识检索,效率低下。研究团队提出条件记忆作为一种全新的建模维度与稀疏性方向,与混合专家(MoE)的条件计算形成互补,完美契合语言信号的二元性——组合推理知识检索

更引人注目的是,元旦假期期间DeepSeek刚发布mHC(流形约束超连接)架构创新,半个月内连发两篇顶级论文,外界普遍猜测:DeepSeek-V4很可能在春节前夕强势登场,再次引爆开源社区。

“条件记忆”:稀疏性的全新维度

稀疏性是现代智能系统的核心设计原则,目前主要通过MoE的条件计算实现模型容量扩展,并已取得显著成功。

然而,语言信号的内在异质性表明仍有巨大优化空间:语言建模本质上包含两个截然不同的子任务——组合推理(需要动态计算)和知识检索(更适合静态查表)。

为使架构与语言的二元性对齐,DeepSeek团队开创性地提出条件记忆作为MoE的互补稀疏维度。

论文中最令人振奋的发现是:精心设计的静态检索机制,能成为现代MoE架构的理想补充

Engram:现代版N-gram条件记忆模块

研究团队据此开发了Engram——一个基于经典N-gram结构的条件记忆模块,同时融入多项现代优化:

  • 分词器压缩(Tokenizer Compression)
  • 多头哈希(Multi-Head Hashing)
  • 上下文门控(Context Gating)
  • 多分支集成(Multi-Branch Ensemble)

同时,团队首次系统性探讨了稀疏性分配问题:在固定参数预算下,MoE专家与Engram记忆的容量应如何最优分配?

实验揭示了一个清晰的U型缩放定律:即使是最简单的查表机制,只要被视为“一等公民”建模原语,就能显著提升神经计算效率。

实证突破:Engram-27B全面超越MoE基线

在该定律指导下,团队将Engram扩展至27B规模。与同参数、同FLOPs的纯MoE-27B基线相比,Engram-27B在全领域实现更高效率

  • 知识密集型任务大幅领先
  • 通用推理、代码、数学等领域提升更显著
  • 长上下文场景下表现尤为突出

机制分析显示:

  • Engram减轻了主干网络早期层“重建静态知识”的负担,释放更多深度用于复杂推理
  • 注意力层得以专注全局上下文,显著提升长序列建模能力

基础设施感知的高效设计

与MoE的动态路由不同,Engram采用确定性ID,支持运行时预取,实现通信-计算完美重叠。

实测表明,即使将100B参数表卸载至主机内存,开销也仅<3%,成功绕过GPU显存瓶颈,为激进参数扩展铺平道路。

从稠密到稀疏:预训练性能跃升

预训练对比实验进一步验证:

  • 稀疏架构(MoE-27B、Engram-27B/40B)在同等计算预算下,全面碾压Dense-4B基线
  • Engram-27B在MoE-27B之上持续提升,证明专用知识查表原语比纯条件计算更高效
  • Engram-40B进一步降低预训练损失,但部分任务尚未完全超越27B(疑似欠拟合)

表征对齐分析显示,Engram变体KL散度更小、收敛曲线更陡峭——意味着模型能更快组合特征、在更早层做出高置信预测。

论文展望:条件记忆将成为下一代稀疏模型不可或缺的建模原语

研发“弹药”充足,V4传闻引热议

近期智谱、MiniMax接连港股上市,财报显示大模型研发仍处高强度“烧钱”阶段,DeepSeek想必也不例外。

但不同于多数依赖外部融资的AI公司,DeepSeek背靠母公司幻方量化,资金实力雄厚。据彭博社报道,2025年幻方量化平均收益率达56.6%,管理规模超700亿元,为DeepSeek持续创新提供充沛“弹药”。

据The Information最新爆料,知情人士透露DeepSeek-V4计划于2月中旬发布,有望再次逼近甚至超越Claude、GPT旗舰水准。网友戏称:“别在大年三十晚上整活儿啊!”

不过,市场质疑声也在升温:面对中美算力差距,DeepSeek能否再创开源奇迹?

你怎么看?DeepSeek会继续缔造传奇,还是这次遇到天花板?

欢迎评论区留言讨论,一起见证2026开源大模型的新王者诞生!

这波技术突破有点猛啊,条件记忆模块感觉能解决大模型的知识检索痛点,期待V4的实际表现。不过中美算力差距确实是个硬伤,看DeepSeek怎么破局了。

哇这波操作太顶了

这波操作太硬核了!条件记忆模块直接解决大模型痛点,看来V4真要炸场了。开源社区有福了,坐等春节前发布。