架构彻底重构!DeepSeek新模型代码曝光,GitHub 惊现“MODEL1”,全新架构模型呼之欲出?

2026年1月21日消息,正值 DeepSeek-R1 发布一周年之际,DeepSeek 的核心推理内核 FlashMLA 代码库迎来重大更新,一个神秘的模型标识 “MODEL1” 悄然现身,引发社区热烈猜测:这很可能就是传闻中的 V4 终极版,或是一个完全独立的新模型系列。

海外开发者在 X 平台上迅速展开讨论,有人兴奋地表示“这可能是 DeepSeek 下一个重磅炸弹”。

代码库曝光:MODEL1 与 V3.2 并行存在

DeepSeek 近期向 FlashMLA 推送多项更新,在 114 个文件中,“MODEL1” 被提及多达 28 次。它不仅出现在 SM90/SM100 架构的 .cu 内核实例化中,还贯穿 FP8 稀疏解码路径的模板定义与内存布局注释。

关键证据包括:

  • 独立编译路径:MODEL1 拥有专属持久化内核,与 V3.2(简称 V32)并行存在,暗示全新执行逻辑。
  • 内存对齐要求:代码注释显示,MODEL1 的 KV 缓存 stride 必须为 576B 的整数倍(V3.2 为 656B),已删除但被社区截获。
  • 头维度适配:显式支持 64 和 128 头维度,针对 Hopper/Blackwell 架构优化。

社区深度解读:更复杂、更实验性的新架构

海外开发者对代码进行细致分析,认为 MODEL1 展现出强烈实验性特征:

  • 动态 Top-K 稀疏推理:引入可变 topk_length 指针,根据 token 或请求动态调整计算键数量,提升资源利用效率。
  • 额外 KV 缓冲区:支持系统提示与用户上下文分离存储,适合 Agent 或多轮复杂场景。
  • 增强边界控制:RoPE 与 NoPE 在双 GEMM 运算中耦合更紧,新增运行时检查机制,避免非法内存访问。
  • 内存估算差异:实际分配可能接近 584B,反映分支仍处于快速迭代阶段。

结合外媒此前的报道,DeepSeek 计划于 2 月中旬(春节前后)发布新一代旗舰模型,主攻编程能力,并在内测中多项基准已超越 Claude 与 GPT 系列。目前的代码迹象表明,MODEL1 已接近推理部署阶段,只待权重冻结与最终验证。

X 平台上,社区反应热烈:有人调侃“又要听到‘成本下降 99.97%’了”,更多人期待若开放权重,将进一步冲击闭源巨头。

Hugging Face 周年纪念:DeepSeek 开源策略重塑全球生态

恰逢 R1 一周年,Hugging Face 发布博文《One Year Since the “DeepSeek Moment”》,回顾中国开源社区的集体爆发。

文章指出,R1 的开源降低了技术、采用与心理三重门槛,推动百度、字节、月之暗面、智谱等机构加速布局开源。DeepSeek-V3 更成为众多海外模型的底座,全球社区从“追随”转向“共创”。

结语:开源新起点,DeepSeek 再启征程

从 R1 开启开源革命,到如今 MODEL1 悄然曝光,DeepSeek 用行动持续定义前沿。如果春节前后正式发布,这一全新架构模型有望再次改写全球开源格局,让前沿能力更普惠、更开放。

MODEL1啥时候能试啊