DeepSeek V4 已箭在弦上?正值 DeepSeek-R1 发布一周年之际,其官方 GitHub 代码库意外泄露了代号 “MODEL1” 的全新模型线索。综合泄露代码片段所呈现的架构调整、硬件优化及全新处理机制不难看出,“MODEL1” 绝非简单的版本迭代,而是一次全方位的架构重构。此次 DeepSeek 在 GitHub 代码库的提前部署,与业内疯传的 “新模型再度于春节期间发布” 的消息,在时间线上高度契合。本月初,外媒亦有爆料,DeepSeek 计划在今年 2 月中旬农历新年期间,推出新一代旗舰 AI 模型 DeepSeek V4。
近日,DeepSeek 陆陆续续给其在 GitHub 上的 FlashMLA 代码库做了一系列更新。
而就在近期,有开发者发现,在涉及的 114 个文件中,共有 28 处提及了未知的 “MODEL1” 大模型标识符。更关键的是,在代码逻辑结构里,该标识符与现有模型 “V32”(即 DeepSeek-V3.2)呈并列关系,且作为独立分支存在 —— 这意味着,“MODEL1” 大概率对应一款脱离现有架构、采用全新技术路径的模型。
网友们也纷纷猜测,这个 “MODEL1” 大概率就是 DeepSeek 即将推出的新模型 V4 的内部开发代号,或是其首个工程版本。从代码片段披露的技术规格来看,该新模型迎来重大架构变更,不仅在 KV Cache(键值缓存)布局、稀疏性处理及 FP8 解码支持等核心模块调整了技术策略与底层机制,还将参数维度切换至 512 维,并针对英伟达下一代 Blackwell GPU 架构进行了专项优化。
尽管本次代码提交聚焦于算子层面的实现,但调度逻辑中仍透露出多项新增功能的线索。从代码仓库的架构可推断,“MODEL1” 已集成价值向量位置感知(VVPA)技术,这项技术有望破解传统 MLA 架构在长文本处理场景中存在的位置信息衰减难题。代码注释中还提及一种 “记忆印记(Engram)机制”,不过目前公开的代码提交记录中,该机制的实现细节尚未完整披露。结合其在分布式处理模块中的部署位置推测,其功能大概率与分布式存储优化或高级键值压缩技术相关,核心目标是满足 “MODEL1” 对高吞吐量的性能需求。


