昨天(2026年1月20日)是 DeepSeek-R1 发布整整一周年,没想到就在这一天,社区在 GitHub 上挖出了一个神秘线索——代号 Model1 在 DeepSeek 的代码仓库中出现了多次(具体统计为 28 次,分布在 114 个文件中)。更引人注目的是,它与当前的 V3.2 并列处理,代码专门为这两个模型写了独立的逻辑分支。
Model1 会是传说中的 V4 吗? 经过仔细排查,我的结论是:极有可能。但要说服你,得先从这个线索的来源说起——它可不是随便一个实验分支,而是生产级核心代码。
这个代码仓库到底是什么?
发现 Model1 的地方是 FlashMLA。 要理解这个发现的含金量,必须先知道 FlashMLA 的定位。
大模型是怎么“读”文字的? 模型处理文本时,需要不断判断“哪些词跟当前词最相关”。 例如:“小明去了北京,他觉得天安门很壮观。” 读到“他”时,模型必须回溯知道“他”指代“小明”。这个“回头找关系”的机制,就是注意力(Attention)。
FlashMLA 是什么? DeepSeek 原创了一种极省内存的注意力算法 MLA(Multi-head Latent Attention),FlashMLA 则是它的闪电加速版,让计算更快、更高效。 关键在于:这不是实验室玩具,而是正在线上服役的生产代码。你现在打开 DeepSeek 网页版聊天,背后跑的就是这套内核。2025年2月 DeepSeek “开源周”第一天就放出了 FlashMLA,官方明确表示这是“经过生产环境实战检验的基础模块”。
为什么新模型会在这里“露馅”?
不同代际模型的注意力实现往往有差异。如果 Model1 采用了全新注意力机制,FlashMLA 就必须提前适配。工程师在为 Model1 编写专用逻辑时,无意中暴露了它的存在。 代码将 Model1 与 V3.2 并列处理,说明两者在底层有显著区别——如果只是小修小补,根本无需分开写逻辑。既然特意分支,改动必然不小。
代码里藏了哪些关键信息?
我逐行分析了 FlashMLA 中与 Model1 相关的部分,以下是几个重量级细节:
- Model1 是正式模型类型,非临时代号 代码定义了一个枚举:
C++
enum class ModelType {
V32,
MODEL1
};
V32 对应当前 V3.2,与之并列的 MODEL1 显然是正式规划,不是随便起的实验名。
2. 采用稀疏注意力(Sparse Attention),只关注最重要词 注释中出现专属于 MODEL1 的字段:
C++
// The following fields are only valid for MODEL1
int topk_length, extra_topk_length, num_orig_kv_blocks;
topk 表示只精准计算最相关的 top-k 个位置。先粗筛、再精算,大幅提升长上下文效率,类似人类阅读时先扫标题再深读章节。
3. KV Cache 存储格式彻底重构 定义了两种 FP8 稀疏布局:
Python
class FP8KVCacheLayout(enum.Enum):
V32_FP8Sparse = 1
MODEL1_FP8Sparse = 2
量化粒度也不同:V32 用 128,Model1 用 64。这很可能是在为“Engram 字典”机制(把固定知识固化成可直接查询的记忆)铺路,减少重复计算。
4. 存在至少 4 种配置 测试代码中出现:
text
# MODEL1 CONFIG1
# MODEL1 CONFIG2
# MODEL1 CONFIG3
# MODEL1 CONFIG4
暗示 Model1 将有多个变体(类似 V3 的 Base/Chat 区分),适配不同部署场景。
时间线:三篇论文 + 代码更新,完美闭环
把代码线索和 DeepSeek 近期论文放在一起,脉络清晰:
| 时间 | 事件 |
|---|---|
| 2025-12-31 | 发布训练稳定性论文,解决超大模型训练崩盘问题 |
| 2026-01-04 | R1 论文从 22 页扩充至 86 页,补全全部技术细节 |
| 2026-01-13 | 发布 Engram “字典”论文,让模型把固定知识固化,直接查表而非重算 |
| 2026-01-20 | FlashMLA 代码更新,Model1 现身 |
| 2026-02 中旬(传闻) | V4 可能发布(春节前后) |
这三篇论文不再是孤立研究,而是为新一代模型系统性铺路:稳定训练 + 减少冗余计算 + 全新注意力落地。
也要保持理性怀疑
尽管证据链很强,仍有几点需要冷水:
- 消息源头略显奇怪:V4 传闻最早来自美国媒体 The Information,国内却几乎没风声。不过该媒体在 AI 领域的爆料准确率很高,此前多次命中 OpenAI 动态。
- Model1 可能只是内部代号:名字太朴素,正式发布时可能改成 V4 或其他。也可能不是旗舰大模型,而是某个专项分支。
- 发布时间不确定:去年 R1 确实春节前发,但 DeepSeek 一贯低调,不一定会赶节点。
我的判断
Model1 大概率就是 V4 的开发代号。它真实存在、与 V3.2 架构差异显著,且 DeepSeek 正在生产环境中为其做上线准备。
代码考古的好处在于:代码不会说谎。 它没有营销修饰,也没有信息差——工程师写下的每一行,都对应真实的技术需求。
至于 Model1 最终性能、多强、叫什么名字,以及确切发布时间……答案可能很快就会到来。毕竟,春节将至。
往期相关(梁文锋署名)
- DeepSeek 再发新论文:75%思考 + 25%记忆,这是他们算出来的最优解
- DeepSeek V4 即将发布?先读懂这份 86 页技术底牌
- DeepSeek 新论文:所有人都觉得没必要改的东西,他们改了
