作为一个略懂计算机和深度学习的入门者,昨天刷到DeepSeek最新论文的推文,一点进去——完全看不懂,脑子一片空白。
今天抽时间认真来读一读这篇大佬级的论文。
先从题目和作者说起。
题目:《mHC: Manifold-Constrained Hyper-Connections》
作者:DeepSeek团队的多位研究员(名单很长,有兴趣可以去论文里看)。
从题目里能提炼出三个核心关键词:流形(Manifold)、约束(Constrained) 和 超连接(Hyper-Connections)
太好了,完全不认识这些词。
所以,作为小白,我们得先补点基础知识。
基础知识补充——什么是流形(Manifold)
推荐参考:流形学习(Manifold Learning),以及一些科普讲座如《流形的概述:现代几何的基石》。
直观来看,下图就是一个经典例子:高维数据看起来散乱,但实际上分布在一个低维的曲面上(比如三维空间里的二维曲面,或者像“瑞士卷”一样卷起来的平面)。
流形学习的核心想法是:现实中的高维数据,往往本质上躺在某个低维的流形结构上。
流形学习的两个关键假设:
- 局部欧氏性:流形上相邻的点,在高维空间里也是邻居,而且局部看起来是“平的”(符合欧氏几何)。
- 保距/保邻接性:降维到低维后,要尽量保持高维数据的局部几何关系(比如距离和邻居关系)。
注意,像渔网那种有交叉点的结构不算严格的光滑流形,因为交叉点破坏了局部欧氏性。
为什么深度学习需要流形概念?
从某种意义上,这是把数据的非线性内在结构当成先验知识,来指导神经网络学习更有效、更鲁棒、更有几何意义的特征。如果数据确实躺在流形上,我们就可以通过约束来限制梯度更新方向,加速收敛;同时,把特征限制在低维流形上,能减少模型自由度,提高泛化能力。
基础知识补充——什么是超连接(Hyper-Connections)
相关论文:Hyper-Connections(arXiv: 2409.19606)
相关解读:一些博客如《都2025年了,我不允许你还在用残差连接!》和《为什么Pre-Norm效果不如Post-Norm?》
这是一篇2024年的工作,目标是改进Transformer块中的残差连接。
先复习一下传统Transformer块中的残差连接问题。
标准残差连接形式:x_{t+1} = x_t + F(x_t),其中F是子层(如Attention或FFN)。
结合LayerNorm的位置,有两种常见变体:
- Pre-Norm:Norm放在子层前,完全符合经典残差形式。但实验显示效果不如Post-Norm,原因是它容易过度依赖恒等分支(identity),导致模型退化成“浅而宽”的结构,损害表达能力。
- Post-Norm:Norm放在残差后,能缓解表示崩溃,但会重新引入梯度消失问题。因为反向传播时,残差分支的梯度会被LayerNorm的导数缩放(通常<1),多层累积后梯度变小。
这就是Hyper-Connections论文里说的“跷跷板”困境:选Pre-Norm牺牲表达力,选Post-Norm又梯度消失。
Hyper-Connections怎么解决?
核心是参数化网络结构,让模型自己学习最优的信息流动方式,既避免梯度消失,又不表示崩溃。
它把硬编码的残差路由变成“软的”、可学习的权重驱动路由。比如通过可学习矩阵来混合多个残差流(multi-stream),某些参数下等价Pre-Norm,另一些下等价Post-Norm,有点像注意力从硬选token变成软加权。
另外,它几乎不增加额外计算和参数,非常高效。
前向大致:涉及可学习矩阵A和B,如果A是单位矩阵,就能退化到标准残差。
Hyper-Connections的问题
忽略一些项后,核心部分容易出现矩阵连乘,导致梯度爆炸/消失。如果不加控制,训练大模型(如27B)时会直接爆炸。
mHC架构的方案
终于到正题了。
原论文一句话:mHC利用Sinkhorn-Knopp算法将残差矩阵投影到Birkhoff多面体上。
方案讲完了……
更详细解释mHC方案
大多数人看完还是懵的,所以来拆解Sinkhorn-Knopp算法。
Sinkhorn-Knopp是一种迭代算法:通过交替归一化行和列,把一个非负矩阵转换成双随机矩阵(doubly stochastic:每行/列和均为1,所有元素≥0)。
mHC就是把Hyper-Connections里的可学习矩阵投影到这个双随机矩阵集合(Birkhoff多面体)上。
双随机矩阵的几个关键性质:
- 谱范数≤1:矩阵的“放大倍数”最大为1(非扩张性)。多层连乘后不会爆炸(谱范数<1时甚至会收缩)。
- 乘法封闭:双随机矩阵乘双随机矩阵,结果仍是双随机。整个深层网络的复合映射都保持稳定。
- 几何含义:Birkhoff多面体是置换矩阵的凸包。投影后相当于置换的凸组合。重复应用会逐渐增强信息的混合程度,促进鲁棒的特征融合。
第三点目前理解还不深:为什么混合程度单调增加就能带来更好的鲁棒融合?欢迎大佬补充解释。
另外,DeepSeek在工程实现上做了大量优化,在扩展率n=4时,只增加约6.7%的额外时间开销。
这样,mHC就成功地把Hyper-Connections的潜力释放出来:更丰富的连接拓扑、更强的表达力,同时保持训练稳定和高效。





