从一行代码发现DeepSeek的秘密:Model1到底是什么?

昨天(2026年1月20日)是 DeepSeek-R1 发布整整一周年,没想到就在这一天,社区在 GitHub 上挖出了一个神秘线索——代号 Model1 在 DeepSeek 的代码仓库中出现了多次(具体统计为 28 次,分布在 114 个文件中)。更引人注目的是,它与当前的 V3.2 并列处理,代码专门为这两个模型写了独立的逻辑分支。

Model1 会是传说中的 V4 吗? 经过仔细排查,我的结论是:极有可能。但要说服你,得先从这个线索的来源说起——它可不是随便一个实验分支,而是生产级核心代码。

这个代码仓库到底是什么?

发现 Model1 的地方是 FlashMLA。 要理解这个发现的含金量,必须先知道 FlashMLA 的定位。

大模型是怎么“读”文字的? 模型处理文本时,需要不断判断“哪些词跟当前词最相关”。 例如:“小明去了北京,他觉得天安门很壮观。” 读到“他”时,模型必须回溯知道“他”指代“小明”。这个“回头找关系”的机制,就是注意力(Attention)。

FlashMLA 是什么? DeepSeek 原创了一种极省内存的注意力算法 MLA(Multi-head Latent Attention),FlashMLA 则是它的闪电加速版,让计算更快、更高效。 关键在于:这不是实验室玩具,而是正在线上服役的生产代码。你现在打开 DeepSeek 网页版聊天,背后跑的就是这套内核。2025年2月 DeepSeek “开源周”第一天就放出了 FlashMLA,官方明确表示这是“经过生产环境实战检验的基础模块”。

为什么新模型会在这里“露馅”?

不同代际模型的注意力实现往往有差异。如果 Model1 采用了全新注意力机制,FlashMLA 就必须提前适配。工程师在为 Model1 编写专用逻辑时,无意中暴露了它的存在。 代码将 Model1 与 V3.2 并列处理,说明两者在底层有显著区别——如果只是小修小补,根本无需分开写逻辑。既然特意分支,改动必然不小。

代码里藏了哪些关键信息?

我逐行分析了 FlashMLA 中与 Model1 相关的部分,以下是几个重量级细节:

  1. Model1 是正式模型类型,非临时代号 代码定义了一个枚举:

C++

enum class ModelType {
    V32,
    MODEL1
};

V32 对应当前 V3.2,与之并列的 MODEL1 显然是正式规划,不是随便起的实验名。
2. 采用稀疏注意力(Sparse Attention),只关注最重要词 注释中出现专属于 MODEL1 的字段:

C++

// The following fields are only valid for MODEL1
int topk_length, extra_topk_length, num_orig_kv_blocks;

topk 表示只精准计算最相关的 top-k 个位置。先粗筛、再精算,大幅提升长上下文效率,类似人类阅读时先扫标题再深读章节。
3. KV Cache 存储格式彻底重构 定义了两种 FP8 稀疏布局:

Python

class FP8KVCacheLayout(enum.Enum):
    V32_FP8Sparse = 1
    MODEL1_FP8Sparse = 2

量化粒度也不同:V32 用 128,Model1 用 64。这很可能是在为“Engram 字典”机制(把固定知识固化成可直接查询的记忆)铺路,减少重复计算。
4. 存在至少 4 种配置 测试代码中出现:

text

# MODEL1 CONFIG1
# MODEL1 CONFIG2
# MODEL1 CONFIG3
# MODEL1 CONFIG4

暗示 Model1 将有多个变体(类似 V3 的 Base/Chat 区分),适配不同部署场景。

时间线:三篇论文 + 代码更新,完美闭环

把代码线索和 DeepSeek 近期论文放在一起,脉络清晰:

时间 事件
2025-12-31 发布训练稳定性论文,解决超大模型训练崩盘问题
2026-01-04 R1 论文从 22 页扩充至 86 页,补全全部技术细节
2026-01-13 发布 Engram “字典”论文,让模型把固定知识固化,直接查表而非重算
2026-01-20 FlashMLA 代码更新,Model1 现身
2026-02 中旬(传闻) V4 可能发布(春节前后)

这三篇论文不再是孤立研究,而是为新一代模型系统性铺路:稳定训练 + 减少冗余计算 + 全新注意力落地。

也要保持理性怀疑

尽管证据链很强,仍有几点需要冷水:

  • 消息源头略显奇怪:V4 传闻最早来自美国媒体 The Information,国内却几乎没风声。不过该媒体在 AI 领域的爆料准确率很高,此前多次命中 OpenAI 动态。
  • Model1 可能只是内部代号:名字太朴素,正式发布时可能改成 V4 或其他。也可能不是旗舰大模型,而是某个专项分支。
  • 发布时间不确定:去年 R1 确实春节前发,但 DeepSeek 一贯低调,不一定会赶节点。

我的判断

Model1 大概率就是 V4 的开发代号。它真实存在、与 V3.2 架构差异显著,且 DeepSeek 正在生产环境中为其做上线准备。

代码考古的好处在于:代码不会说谎。 它没有营销修饰,也没有信息差——工程师写下的每一行,都对应真实的技术需求。

至于 Model1 最终性能、多强、叫什么名字,以及确切发布时间……答案可能很快就会到来。毕竟,春节将至。

往期相关(梁文锋署名)

  • DeepSeek 再发新论文:75%思考 + 25%记忆,这是他们算出来的最优解
  • DeepSeek V4 即将发布?先读懂这份 86 页技术底牌
  • DeepSeek 新论文:所有人都觉得没必要改的东西,他们改了
1 个赞

Model1 有点意思

Model1 稳了 V4 无疑

感觉这次更新有点东西啊

看来V4真的要来了

DeepSeek这波更新有点东西啊

这代码考古有点东西啊

感觉这次更新有点东西