距离DeepSeek新一代模型发布,或许已近在咫尺。
2026年1月,DeepSeek与北京大学联合发表重磅论文,正式提出并开源Engram——一种专为大型语言模型设计的条件记忆(Conditional Memory)模块。DeepSeek创始人梁文峰亲自参与该研究,作为共同作者之一。
这项工作直击当前大模型的核心痛点:传统Transformer通过海量计算“模拟”知识检索,效率低下。研究团队提出条件记忆作为一种全新的建模维度与稀疏性方向,与混合专家(MoE)的条件计算形成互补,完美契合语言信号的二元性——组合推理与知识检索。
更引人注目的是,元旦假期期间DeepSeek刚发布mHC(流形约束超连接)架构创新,半个月内连发两篇顶级论文,外界普遍猜测:DeepSeek-V4很可能在春节前夕强势登场,再次引爆开源社区。
“条件记忆”:稀疏性的全新维度
稀疏性是现代智能系统的核心设计原则,目前主要通过MoE的条件计算实现模型容量扩展,并已取得显著成功。
然而,语言信号的内在异质性表明仍有巨大优化空间:语言建模本质上包含两个截然不同的子任务——组合推理(需要动态计算)和知识检索(更适合静态查表)。
为使架构与语言的二元性对齐,DeepSeek团队开创性地提出条件记忆作为MoE的互补稀疏维度。
论文中最令人振奋的发现是:精心设计的静态检索机制,能成为现代MoE架构的理想补充。
Engram:现代版N-gram条件记忆模块
研究团队据此开发了Engram——一个基于经典N-gram结构的条件记忆模块,同时融入多项现代优化:
- 分词器压缩(Tokenizer Compression)
- 多头哈希(Multi-Head Hashing)
- 上下文门控(Context Gating)
- 多分支集成(Multi-Branch Ensemble)
同时,团队首次系统性探讨了稀疏性分配问题:在固定参数预算下,MoE专家与Engram记忆的容量应如何最优分配?
实验揭示了一个清晰的U型缩放定律:即使是最简单的查表机制,只要被视为“一等公民”建模原语,就能显著提升神经计算效率。
实证突破:Engram-27B全面超越MoE基线
在该定律指导下,团队将Engram扩展至27B规模。与同参数、同FLOPs的纯MoE-27B基线相比,Engram-27B在全领域实现更高效率:
- 知识密集型任务大幅领先
- 通用推理、代码、数学等领域提升更显著
- 长上下文场景下表现尤为突出
机制分析显示:
- Engram减轻了主干网络早期层“重建静态知识”的负担,释放更多深度用于复杂推理
- 注意力层得以专注全局上下文,显著提升长序列建模能力
基础设施感知的高效设计
与MoE的动态路由不同,Engram采用确定性ID,支持运行时预取,实现通信-计算完美重叠。
实测表明,即使将100B参数表卸载至主机内存,开销也仅<3%,成功绕过GPU显存瓶颈,为激进参数扩展铺平道路。
从稠密到稀疏:预训练性能跃升
预训练对比实验进一步验证:
- 稀疏架构(MoE-27B、Engram-27B/40B)在同等计算预算下,全面碾压Dense-4B基线
- Engram-27B在MoE-27B之上持续提升,证明专用知识查表原语比纯条件计算更高效
- Engram-40B进一步降低预训练损失,但部分任务尚未完全超越27B(疑似欠拟合)
表征对齐分析显示,Engram变体KL散度更小、收敛曲线更陡峭——意味着模型能更快组合特征、在更早层做出高置信预测。
论文展望:条件记忆将成为下一代稀疏模型不可或缺的建模原语。
研发“弹药”充足,V4传闻引热议
近期智谱、MiniMax接连港股上市,财报显示大模型研发仍处高强度“烧钱”阶段,DeepSeek想必也不例外。
但不同于多数依赖外部融资的AI公司,DeepSeek背靠母公司幻方量化,资金实力雄厚。据彭博社报道,2025年幻方量化平均收益率达56.6%,管理规模超700亿元,为DeepSeek持续创新提供充沛“弹药”。
据The Information最新爆料,知情人士透露DeepSeek-V4计划于2月中旬发布,有望再次逼近甚至超越Claude、GPT旗舰水准。网友戏称:“别在大年三十晚上整活儿啊!”
不过,市场质疑声也在升温:面对中美算力差距,DeepSeek能否再创开源奇迹?
你怎么看?DeepSeek会继续缔造传奇,还是这次遇到天花板?
欢迎评论区留言讨论,一起见证2026开源大模型的新王者诞生!