2026年1月13日重磅消息:DeepSeek昨晚不声不响又开源了一个杀手级架构——Engram,并同步发布论文!这是一种革命性的“条件记忆”机制,专治MoE模型的“知识重复计算”痛点,让巨量参数模型更高效、更聪明。
论文署名豪华阵容:DeepSeek创始人兼CEO梁文锋、北大王选所赵东岩与张辉帅教授。第一作者Xin Cheng(程信)是北大智能学院博士,同时在DeepSeek深度参与R1、V3研发,实力实习生天花板!
Engram核心杀招:低成本实现超强性能
- 训练效率爆棚:计算量比传统MoE少18%,却在32768 token超长上下文上全面反超同参数MoE!
- 长上下文王者:RULER基准多查询任务准确率大幅领先。
- 推理几乎无损:1000亿参数记忆表卸载主机内存,H800吞吐仅降<3%
- 新Scaling定律:单纯增大记忆槽位,就能持续稳定降低验证损失——无需额外算力!
简单说:传统MoE虽稀疏计算,但仍反复算“老生常谈”的静态知识(名字、公式、固定表达)。Engram直接建个超大静态记忆表,提前存好这些“常识”,注意力机制专心干大事——复杂推理、长文本理解。
Engram是怎么炼成的?多管齐下黑科技
- 分词器压缩:词表去冗余(大小写、Unicode规范),128k压到77%,记忆密度暴涨
- 多头哈希记忆:固定参数近似超大N-gram表,防碰撞噪声
- 上下文门控+因果卷积:静态记忆变“聪明”,适应歧义
- 多分支架构:GPU超高效矩阵乘法,取代传统残差流
- 训练/推理解耦:All-to-All通信线性扩展记忆;异步预取零延迟
最佳配比:资源75-80%给MoE(动态计算),20-25%给Engram(静态记忆),U型曲线验证互补性!
大规模实测:Engram-27B吊打MoE-27B
- 同算力下,通用推理、代码、数学任务提升最猛
- 长上下文微调后,RULER多跳检索碾压
- 扩展到Engram-40B,损失继续降,潜力还没挖完
- 浅层部署最佳:早卸载局部知识,深层专注全局推理
- 关掉Engram,事实知识任务崩盘(仅剩29-44%性能),证明它是“知识仓库”
结语:Engram或成下一代稀疏模型标配,DeepSeek-V4要起飞?
论文直言:条件记忆将成为稀疏模型不可或缺的“建模原语”。这意味着V4很可能原生整合Engram,实现知识高效检索+推理飞跃。
更狠的是:未来可直接改记忆表修知识错误、无需微调;支持在线学习、多模态扩展;硬件协同低成本超大规模部署……这不就是逼近AGI的效率路径吗?![]()
你觉得Engram能干翻传统MoE吗?DeepSeek这波操作会不会让开源圈再次地震?评论区预测V4表现,一起见证






