DeepSeek团队在2025年年底悄然发布新论文《mHC: Manifold-Constrained Hyper-Connections》(arXiv:2512.24880),再次对Transformer核心——**残差连接(Residual Connection)**出手。这篇论文延续了DeepSeek一贯风格:不满足于“堆料”,而是从架构拓扑层面挖掘潜力,提出一种既保留复杂连接优势、又恢复训练稳定性的新范式。
论文核心贡献:Manifold-Constrained Hyper-Connections (mHC),通过将Hyper-Connections(HC)的残差空间投影到特定流形上,完美平衡“表达力提升”与“训练稳定性”,并配合基础设施优化,实现几乎零开销的性能增益。
1. 残差连接十年公理与瓶颈
过去十年,Transformer块堆叠依赖ResNet式残差连接:y = x + f(x)。
- 优势:Identity Mapping保证信号/梯度无损传播,支持数百上千层深度训练。
- 现状:已成为行业“公理”,但信息通路单一,限制了层间特征交互的丰富度。
DeepSeek此前(约2024年9月)提出Hyper-Connections (HC):扩展残差流宽度、多样化连接模式,让层间信息交互更复杂,带来显著性能提升。但代价是破坏Identity属性,导致Seesaw Effect(跷跷板效应):训练不稳定、信号爆炸、梯度消失,深层网络容易“炸”。
mHC正是为填补这一坑而生。
2. mHC核心:流形约束下的“既要又要”
mHC在HC基础上引入流形约束(Manifold Constraint),数学上证明:通过投影权重矩阵到特定流形,既保留HC的高带宽、多通路优势,又恢复Identity Mapping的稳定性。
两大关键约束
-
谱范数约束(Spectral Norm Constraint):
- 强制连接矩阵谱范数 ∥W∥₂ ≤ 1(非扩张映射)。
- 确保信号能量在深层传播不发散/衰减,防止数值爆炸。
-
双重随机矩阵(Doubly Stochastic Matrices):
- 行和、列和均为1的非负矩阵。
- 闭包性:矩阵乘积仍为双重随机,保证整体变换性质稳定。
- 输出为上一层的凸组合,从根本恢复训练稳定性。
这些约束让权重矩阵“看起来像扭曲的Identity Matrix”:复杂但受控,信号传播顺滑如残差,却拥有更丰富的特征交互。
3. 理论深度:动力系统视角
论文亮点在于从**动力系统(Dynamical Systems)**角度分析深层网络(层数≈时间步)。
- 无约束HC:Lyapunov指数失控,导致混沌/不稳定。
- mHC:通过投影(如Sinkhorn算法)确保谱性质受控,Lyapunov指数稳定。
- 结论:无论堆叠多深,系统不会“迷路”或“崩塌”。
这不仅是工程修复,更是理论补充:以前我们只知“加残差就好使”,mHC证明“在流形上复杂行走也安全”。
4. 系统效率:DeepSeek的“必杀技”
DeepSeek从不只谈理论。mHC配合定制CUDA kernel优化:
- 额外计算开销压缩至~7%(几乎可忽略)。
- 内存访问overhead大幅降低。
- 支持大规模训练(实验用到27B模型,甚至提及兼容671B MoE)。
结果:在算力成本基本不变情况下,白嫖表达力上限。
5. 实验验证与行业意义
- 规模:3B、9B、27B模型测试,mHC稳定训练,无约束HC频繁崩塌。
- 性能:下游基准显著提升,scaling能力更强。
- 影响:
- 开启“后Transformer时代”:层间拓扑(Topology)成为新战场,不再只是简单搭积木。
- 若验证到万亿参数,mHC或成未来基础设施标准。
- 几何约束设计理念(Manifold-based)可能主导下一代基础模型进化。
总结:从“连接图”到“参数流形”的跃迁
mHC不仅是HC的修复版,更是架构设计范式的升级:将视角从单纯连接提升到参数空间的几何约束。DeepSeek再次证明,开源团队也能通过深度理论+极致工程,持续推动AI边界。这篇论文或许预示2026年大模型的新方向——更高效、更可扩展的“智能粘合剂”时代即将到来!