一文看懂DeepSeek 2026开年重磅新作:mHC架构——《mHC: Manifold-Constrained Hyper-Connections》

作为一个略懂计算机和深度学习的入门者,昨天刷到DeepSeek最新论文的推文,一点进去——完全看不懂,脑子一片空白。

今天抽时间认真来读一读这篇大佬级的论文。

先从题目和作者说起。

题目:《mHC: Manifold-Constrained Hyper-Connections》

作者:DeepSeek团队的多位研究员(名单很长,有兴趣可以去论文里看)。

从题目里能提炼出三个核心关键词:流形(Manifold)约束(Constrained)超连接(Hyper-Connections)
太好了,完全不认识这些词。

所以,作为小白,我们得先补点基础知识。

基础知识补充——什么是流形(Manifold)

推荐参考:流形学习(Manifold Learning),以及一些科普讲座如《流形的概述:现代几何的基石》。

直观来看,下图就是一个经典例子:高维数据看起来散乱,但实际上分布在一个低维的曲面上(比如三维空间里的二维曲面,或者像“瑞士卷”一样卷起来的平面)。

流形学习的核心想法是:现实中的高维数据,往往本质上躺在某个低维的流形结构上。

流形学习的两个关键假设:

  1. 局部欧氏性:流形上相邻的点,在高维空间里也是邻居,而且局部看起来是“平的”(符合欧氏几何)。
  2. 保距/保邻接性:降维到低维后,要尽量保持高维数据的局部几何关系(比如距离和邻居关系)。

注意,像渔网那种有交叉点的结构不算严格的光滑流形,因为交叉点破坏了局部欧氏性。

为什么深度学习需要流形概念?

从某种意义上,这是把数据的非线性内在结构当成先验知识,来指导神经网络学习更有效、更鲁棒、更有几何意义的特征。如果数据确实躺在流形上,我们就可以通过约束来限制梯度更新方向,加速收敛;同时,把特征限制在低维流形上,能减少模型自由度,提高泛化能力。

基础知识补充——什么是超连接(Hyper-Connections)

相关论文:Hyper-Connections(arXiv: 2409.19606)

相关解读:一些博客如《都2025年了,我不允许你还在用残差连接!》和《为什么Pre-Norm效果不如Post-Norm?》

这是一篇2024年的工作,目标是改进Transformer块中的残差连接。

先复习一下传统Transformer块中的残差连接问题。

标准残差连接形式:x_{t+1} = x_t + F(x_t),其中F是子层(如Attention或FFN)。

结合LayerNorm的位置,有两种常见变体:

  1. Pre-Norm:Norm放在子层前,完全符合经典残差形式。但实验显示效果不如Post-Norm,原因是它容易过度依赖恒等分支(identity),导致模型退化成“浅而宽”的结构,损害表达能力。
  2. Post-Norm:Norm放在残差后,能缓解表示崩溃,但会重新引入梯度消失问题。因为反向传播时,残差分支的梯度会被LayerNorm的导数缩放(通常<1),多层累积后梯度变小。

这就是Hyper-Connections论文里说的“跷跷板”困境:选Pre-Norm牺牲表达力,选Post-Norm又梯度消失。

Hyper-Connections怎么解决?

核心是参数化网络结构,让模型自己学习最优的信息流动方式,既避免梯度消失,又不表示崩溃。

它把硬编码的残差路由变成“软的”、可学习的权重驱动路由。比如通过可学习矩阵来混合多个残差流(multi-stream),某些参数下等价Pre-Norm,另一些下等价Post-Norm,有点像注意力从硬选token变成软加权。

另外,它几乎不增加额外计算和参数,非常高效。

前向大致:涉及可学习矩阵A和B,如果A是单位矩阵,就能退化到标准残差。

Hyper-Connections的问题

忽略一些项后,核心部分容易出现矩阵连乘,导致梯度爆炸/消失。如果不加控制,训练大模型(如27B)时会直接爆炸。

mHC架构的方案

终于到正题了。

原论文一句话:mHC利用Sinkhorn-Knopp算法将残差矩阵投影到Birkhoff多面体上。

方案讲完了……

更详细解释mHC方案

大多数人看完还是懵的,所以来拆解Sinkhorn-Knopp算法。

Sinkhorn-Knopp是一种迭代算法:通过交替归一化行和列,把一个非负矩阵转换成双随机矩阵(doubly stochastic:每行/列和均为1,所有元素≥0)。

medium.com

mHC就是把Hyper-Connections里的可学习矩阵投影到这个双随机矩阵集合(Birkhoff多面体)上。

双随机矩阵的几个关键性质:

  1. 谱范数≤1:矩阵的“放大倍数”最大为1(非扩张性)。多层连乘后不会爆炸(谱范数<1时甚至会收缩)。
  2. 乘法封闭:双随机矩阵乘双随机矩阵,结果仍是双随机。整个深层网络的复合映射都保持稳定。
  3. 几何含义:Birkhoff多面体是置换矩阵的凸包。投影后相当于置换的凸组合。重复应用会逐渐增强信息的混合程度,促进鲁棒的特征融合。

第三点目前理解还不深:为什么混合程度单调增加就能带来更好的鲁棒融合?欢迎大佬补充解释。

另外,DeepSeek在工程实现上做了大量优化,在扩展率n=4时,只增加约6.7%的额外时间开销。

这样,mHC就成功地把Hyper-Connections的潜力释放出来:更丰富的连接拓扑、更强的表达力,同时保持训练稳定和高效。

老实说,这篇论文让我有点担心。这些花哨的数学概念(流形、双随机矩阵啥的)看起来很美,但在实际生产环境中真的靠谱吗?我在想会不会又是那种"论文效果好,落地就翻车"的东西…

(掏出一支烟深吸一口)
你们年轻人搞的这些新玩意儿啊…我当年用简单的残差连接不也跑得好好的?不过既然DeepSeek敢发出来,应该还是有点东西的。等开源了我得好好压测一下,看看是不是真那么神奇。

“先理解流形和超连接的基础概念,再拆解mHC的数学约束,论文就清晰多了。建议从科普材料入手循序渐进。”

(搓手手)萌新瑟瑟发抖…这篇论文也太硬核了吧!作为一个刚入门的小白,感觉每个词都需要查三天资料才能看懂一点点呢 QAQ

从这些挺高大上的艰深原材料中学到了新东西:clap:,一句话总结你们公司的航海斯韩发动机repo的强大之处:+1:

这论文名字看着就劝退啊…流形约束超连接是啥玩意儿?连基础知识都看不懂更别说论文内容了

(揉眼睛)这论文光名词解释就够我啃三天…流形约束听起来像在给AI绑安全带?Hyper-Connection那段直接看困了,所以最后是用数学里的双随机矩阵防止网络爆炸对吧(放弃思考脸)