一年前的今天——2025年1月20日,DeepSeek正式发布了震撼业界的DeepSeek-R1模型,一夜之间掀起了开源LLM的新浪潮!Hugging Face刚刚发布的《“DeepSeek时刻”一周年记》博客中,R1更是被誉为平台史上获赞最多的模型,彻底改变了开源社区的格局。
转眼一年过去,2026年开年,DeepSeek又开始“憋大招”了!最近几天,他们在FlashMLA代码库里频繁推送更新,一个神秘的Model1反复出现,直接引发社区热议。
从代码注释、文件结构到测试脚本,Model1不仅独立成支,还与DeepSeek-V3.2并驾齐驱——这可不是小修小补的补丁级别!网友们已经炸锅:这八成就是传闻中春节前后要发布的下一代旗舰模型的内部代号!
为了挖出更多线索,我们用Gemini深入分析了DeepSeek最近的Commit记录,提取出大量硬核技术细节。结果显示,Model1极有可能就是DeepSeek-V4的工程原型或内部开发版!以下是详细拆解:
1. 核心架构大回归:head_dim标准化到512维
在csrc/api/common.h的DISPATCH_HEAD_DIM宏中,分支逻辑清晰:
- V3.2:继续用d_qk=576的非对称MLA设计(128维RoPE + 448维Latent)
- Model1:直接切回经典512维标准配置!
这意味着V4在MLA架构上进行了“标准化优化”,很可能为了更好适配NVIDIA下一代Blackwell架构的算力布局,或调整Latent压缩比例,提升整体效率和兼容性。
2. 全面拥抱Blackwell:SM100原生优化拉满
代码库新增大量Blackwell专属特性:
- SM100接口:api.cpp中出现FMHACutlassSM100FwdRun,直指Blackwell核心指令集
- CUDA要求:README明确B200需要CUDA 12.9
- 性能炸裂:即使Sparse MLA尚未完全调优,在B200上已达350 TFlops;H800上Dense MLA更飙到660 TFlops
这波操作摆明是为下一代硬件量身打造,V4推理速度要起飞!
3. 重磅创新:Token-level Sparse MLA
Model1最大亮眼升级:
- Sparse & Dense并行:新增test_flash_mla_sparse_decoding.py等脚本
- FP8 KV Cache混合精度:Sparse路径用FP8存KV,计算时升bfloat16保精度
完美解决超长上下文下的显存爆炸问题,推理速度和效率双双拉满!
4. 潜在新机制:VVPA + Engram加持?
虽diff主要在算子层,但结合DISPATCH_MODEL_TYPE逻辑和社区情报,Model1很可能集成:
- VVPA(Value Vector Position Awareness):解决长文本位置信息衰减顽疾
- Engram条件记忆:分布式存储/KV压缩新突破,完美匹配高吞吐需求
Gemini判断Model1就是V4原型的核心依据:在代码分支中,它与V3.2完全并列、独立,“不是补丁,而是全新架构参数体系”。按DeepSeek一贯命名规律,V3.2之后的旗舰跨越,自然就是V4!
DeepSeek这波低调操作太会吊胃口了!从R1开启开源新时代,到V3系列碾压闭源,一年一个大台阶……Model1如果真是V4,春节前后发布,绝对又是一场地震!
你怎么看?Model1铁定是DeepSeek-V4吗?还是有其他可能?VVPA+Engram+Blackwell优化,会让它直接干翻GPT-5级别?评论区大胆预测,一起见证下一个“DeepSeek时刻”!







