2025 年 1 月 20 日,DeepSeek R1 模型上线。七天后,美股科技股单日蒸发近万亿美元,仅英伟达就暴跌 5890 亿美元,创下美股单只股票最大单日跌幅纪录 —— 硅谷第一次认真拼写 “DeepSeek” 这个名字。
一年后的 2026 年 2 月,中国 AI 行业迎来史上最密集的发布潮:Kimi K2.5、智谱 GLM-5、MiniMax M2.5、字节豆包 2.0 等重磅产品密集亮相,融资、市值、补贴战打得火热。而 DeepSeek 的回应只有沉默:2025 年全年仅发 10 条模型更新公告,创始人梁文锋公开发言次数为零,传闻中的 V4 模型迟迟不官宣,仅悄悄将上下文窗口从 128K 扩展至 1M。
当行业喧嚣沸腾,这家不融资、不营销、无外部董事会的公司,究竟在沉默中酝酿什么?
一、沉默的底气:用开源定义行业底层语法
表面上看,DeepSeek 似乎缺席了这场 AI 盛宴,但实则早已通过开源技术,成为行业的 “隐形基石”。
智谱 GLM-5 的核心注意力机制,直接采用了 DeepSeek-V3.2 引入的稀疏注意力技术 DSA(DeepSeek Sparse Attention)—— 这是 DeepSeek 早期 NSA 研究的工程化演进版本;Kimi K2 的基座架构,沿用了 DeepSeek-V3 的 MoE 混合专家和 MLA 多头潜注意力路线,仅在专家数量和注意力头上做了微调。
这并非简单的技术借鉴,而是像 Google 的 Transformer 一样,DeepSeek 用开源定义了这一代中国大模型的底层范式。当行业头部玩家都在它制定的规则上构建产品,它无需通过发布会刷存在感 —— 技术本身就是最响亮的宣言。
不过,不同玩家与 DeepSeek 的关系呈现两种不同形态:
-
技术继承者:智谱 GLM-5 在 DSA 技术基础上,完成了 744B 参数规模、28.5T 训练数据的工程化落地,属于 “站在巨人肩膀上的创新”;
-
直接竞争者:月之暗面杨植麟与梁文锋曾两次 “撞车”——2025 年 1 月同日发布推理模型,2025 年 2 月同日发表稀疏注意力相关论文,NSA(梁文锋)与 MoBA(杨植麟)路径不同但目标一致,成为研究前沿的直接对手。
清华学者章明星的评价精准点出本质:“大模型架构似乎自己指出了前进路线,让不同人从不同角度得出相似方向。”DeepSeek 的开源生态,让行业创新无需从零开始,而它自己则退居幕后,专注更底层的突破。
二、沉默的三重逻辑:芯片、口碑与战略转向
DeepSeek 的沉默并非被动蛰伏,而是多重因素下的主动选择:
1. 芯片卡脖子:国产算力的系统性瓶颈
英国金融时报 2025 年 8 月报道,DeepSeek 原计划 5 月发布的 R2 模型,因华为昇腾芯片训练问题被迫推迟。尽管华为派工程师驻场,但芯片稳定性、片间通信速度、软硬件适配均未达预期,最终 DeepSeek 只能继续用 NVIDIA 芯片训练,华为仅用于推理。
与依赖融资或补贴的公司不同,DeepSeek 靠幻方量化的自有资金运作,每一分算力成本都需精打细算。“用不好的卡训出不好的模型,不如不出”,成为其坚守的底线。
2. 极致口碑主义:梁文锋的 “零半成品” 原则
梁文锋的性格决定了 DeepSeek 的产品节奏。R1 上线前历经反复打磨,一出手就是开源 + 碾压级性能,从未有 “先发 Preview 试水” 的操作。有报道称,DeepSeek 内部对 R2 的进展不够满意,梁文锋坚决拒绝发布半成品 —— 对这位量化交易出身的创始人而言,“没有绝对优势不下注” 是刻在骨子里的直觉。
3. 战略转向:从双轨并行到统一架构
此前 DeepSeek 一直保持 “基础模型 V 系列” 与 “推理模型 R 系列” 双轨并行,但 V3.1 已引入混合推理架构,实现快速响应与深度推理的统一。V4 模型大概率会彻底合并两条产品线,打造全新统一架构 —— 这不是简单的版本迭代,而是对 “一代模型” 的重新定义,需要足够的技术沉淀。
三、沉默期的硬核动作:三篇论文重写训练范式
沉默不等于停滞。2025 年末至 2026 年初,梁文锋署名的论文密集发表,指向的不是单一模型,而是一套全新的 AI 训练范式:
1. NSA(原生稀疏注意力):算力与效果的平衡术
2025 年初发布的 NSA 技术,打破了传统注意力机制 “每个词与所有词比较” 的低效模式,通过分层压缩 + 关键词选择 + 滑动窗口组合,仅关注最相关内容,在算力大幅降低的同时,保证效果基本无损,为长上下文处理提供了高效解决方案。
2. Engram(条件记忆):让模型 “背熟基础知识”
将模型中的基础知识从 “每次计算” 转化为 “直接查表”,类似人类背下乘法表而非每次手算。这一技术让模型早期层无需重复处理静态知识,将计算资源留给复杂推理,在 MMLU(+3.4)、BBH(+5.0)、HumanEval(+3.0)等基准测试中均实现显著提升,长上下文检索准确率从 84.2% 飙升至 97.0%。
3. mHC(流形约束超连接):解决模型规模化瓶颈
针对 “模型越大训练越不稳定” 的行业痛点,mHC 技术让模型性能随参数量线性扩展,避免规模扩大后出现的效果崩塌,为超大规模模型的稳定训练提供了核心保障。
此外,DeepSeek 团队还发布两篇 DeepSeek-OCR 论文,提出反直觉的跨模态压缩方案 —— 将文本渲染成图像后用视觉编码器压缩,压缩 10 倍仍保持 97% 精度,MIT Technology Review 专门报道这一技术,被视为 V4 多模态能力的前置准备。
四、梁文锋其人:量化大佬的 AI 创业逻辑
理解 DeepSeek 的沉默,必先理解创始人梁文锋。
1985 年出生于广东湛江,吴川一中高考状元,浙大信息与电子工程学院本硕,研究生期间靠 8 万元本金涉足量化交易。2015 年创立幻方量化,2021 年管理规模突破千亿,跻身国内量化私募 “四大天王”。2023 年,他拿着幻方的利润创办 DeepSeek,全程不融资、无投资人、无外部董事会,完全按自己的节奏推进。
他用 “一只平凡的小猪” 名义匿名捐款 1.38 亿,2025 年入选 Nature 年度十大科学人物、R1 论文登上 Nature 封面,却从未接受过一次正式公开采访。量化交易员的底层直觉 ——“没有 edge 不下注”,被他完全带入 AI 创业:不追求发布频率,只等待技术信号足够强时,一击致命。
五、沉默的影响:中国 AI 需要技术锚点吗?
DeepSeek 的沉默,对中国 AI 行业而言是一把双刃剑:
积极面:倒逼行业差异化创新
在 DeepSeek 的技术基础上,智谱完成 IPO、MiniMax 市值破 1800 亿港元、月之暗面现金储备超百亿、阿里 Qwen 撑起开源生态另一支柱 —— 各家在应用层、工程化、商业化上的竞争,推动中国 AI 生态繁荣。
隐忧面:底层架构创新待突破
DeepSeek-V3 和 R1 的架构影响力已持续一年,行业在底层创新上仍在等待新的范式突破。阿里 Qwen 虽持续迭代,但更多聚焦模型层优化,缺乏架构级的颠覆性创新。
最让人期待的可能性是:如果 V4 模型如期发布,不仅开源,且综合能力比肩甚至超越闭源模型,将动摇 OpenAI 的商业模式本身。上一次 DeepSeek 证明 “几十万美元能训出顶级推理模型”,这一次若能证明 “开源模型可超越闭源”,“为什么要为 GPT 付费” 将从技术圈小众讨论变成商业命题。
2025 年 1 月,DeepSeek 用一篇论文和开源模型震动硅谷;2026 年 2 月,它用沉默震动中国 AI 行业。当行业沉迷于发布频率、市值排名的喧嚣,DeepSeek 的选择提醒我们:真正的竞争力,不在于开口的次数,而在于沉默时的思考深度。
当你写的规则已成为行业底层语法,无需每天发声,只需在对的时间,说出对的那一句。上一次梁文锋开口,英伟达蒸发 5890 亿美元;下一次,谁知道会带来什么?



