在生成模型领域,何恺明团队一直执着于「一步到位」的技术探索,从 MeanFlow 到 iMeanFlow 系列,始终在突破效率与质量的平衡边界。2026 年,他们推出的全新范式 ——漂移模型(Drifting Models),更是实现了革命性突破:无需多步迭代,仅需 1 次前向传播(1-NFE),就能生成质量媲美甚至超越传统多步扩散模型的图像,彻底打破了生成模型「效率与质量不可兼得」的行业困局。
这篇论文的深刻之处,不在于复杂算法的堆砌,而在于对生成模型本质的回归与重构。它跳出了传统框架的思维定式,用「平衡态追求」替代「路径演化」,为图像生成技术开辟了全新赛道。想要理解其核心创新,需先从生成模型的底层逻辑与历史演进说起。
一、生成模型的本质与核心困境
1. 最小定义:从噪声到真实的分布匹配
所有现代生成模型的核心目标都可极简概括:通过神经网络,将简单的噪声分布(如高斯噪声),映射为与真实图像高度相似的目标分布。通俗来讲,就是把「噪声云团」揉捏成「真实图片云团」,让生成图像的分布尽可能贴合真实数据的分布。
这一过程的数学本质,是让模型的「前推分布」与真实数据分布无限接近。而所谓「前推分布」,可简单理解为通过模型映射后,噪声最终形成的图像分布形态。
2. 两大核心难题:为何生成模型难兼顾效率与质量?
生成模型的训练之所以极具挑战,核心源于两个关键问题:
-
全局分布匹配难题:判断生成效果的好坏,并非看单个样本的误差,而是两个高维分布(噪声分布与真实分布)的整体相似度,难以像分类任务那样设计明确的单样本监督信号。
-
复杂映射难题:真实图像分布是高维空间中复杂的「弯曲流形」,且具有多模态特征。直接从噪声一步映射到真实分布,极易出现训练不稳定、样本多样性不足(模式崩溃)等问题,甚至无法完成学习。
历史上所有生成模型的探索,本质上都是在寻找「可学习的中间结构」,将这两个全局难题拆分为可优化的局部问题。
二、生成模型的历史演进:从一步生成到多步迭代的循环
1. 早期路线:一步生成的效率优势与质量妥协
以 GAN(生成对抗网络)、VAE(变分自编码器)为代表的早期模型,核心思路是「一步映射优化」,推理速度快,但在质量与稳定性上存在明显短板。
-
VAE:通过「编码 - 解码」两步拆分映射,引入变分下界(ELBO)作为优化目标,将无监督的分布匹配问题转化为可计算的监督任务。但由于 ELBO 只是真实分布差距的近似下界,生成图像往往偏模糊、细节不足。
-
GAN:放弃直接计算分布差距,通过生成器与判别器的「对抗博弈」提供监督信号。这种思路更注重「创造」而非「模仿」,但训练极不稳定,易出现模式崩溃、梯度消失等问题,生成质量波动较大。
这类模型虽实现了一步生成的高效性,却难以在生成质量、训练稳定性、样本多样性之间找到平衡。
2. 扩散 / 流模型:多步迭代的质量提升与效率牺牲
为解决早期模型的质量问题,扩散模型(Diffusion Models)与流模型(Flow Models)走上了「多步迭代」的路线 —— 接受推理效率的妥协,换取分布匹配的准确性与稳定性。
-
流模型:通过一系列可逆的微小变换(「流」),逐步将简单噪声分布转化为真实图像分布,能精确计算分布概率密度,训练稳定、生成质量高。但可逆性约束限制了模型灵活性,高分辨率图像处理成本极高,推理速度远慢于一步生成模型。
-
扩散模型:通过「正向加噪 - 反向去噪」的多步迭代实现分布转化 —— 正向过程将真实图像逐步转化为噪声,反向过程通过神经网络学习去噪映射,最终还原出真实图像。其优势是训练稳定、生成质量惊艳,尤其在高分辨率图像任务中表现突出,但需数百甚至数千步迭代,NFE 值高,推理效率极低。
3. 加速探索:未能突破框架的局部优化
针对扩散 / 流模型的效率痛点,学术界出现了两大加速方向:
-
蒸馏方向:通过「教师 - 学生」框架,将多步迭代的教师模型知识,蒸馏到一步生成的学生模型中,训练难度低、稳定性强,但性能受限于教师模型的框架,难以突破上限。
-
从零训练一步方向:直接设计一步生成模型,如 Consistency Models、何恺明团队此前的 MeanFlow 系列,虽实现了一步生成,但本质仍未跳出扩散 / 流模型「路径 / 时间 / ODE」的核心框架,只是将多步合并为大步,未能实现范式级突破。
三、漂移模型:从「路径演化」到「平衡态追求」的范式革命
漂移模型的核心创新,在于彻底抛弃了传统生成模型「沿时间路径演化」的默认前提,回归「分布匹配」的本质目标,转而追问:如何让生成分布稳定到真实分布,何时停止调整?
其核心逻辑可拆解为三点:
-
终极目标:找到最优模型参数,让生成分布与真实分布完全匹配,达到「平衡点」;
-
核心手段:构造「漂移场」,为每个生成样本提供「推力」,指示其向更接近真实分布的方向移动;
-
训练过程:不断优化参数,逐步将「推力」降至 0,当推力为 0 时,生成分布达到平衡态,训练停止。
这一范式转换,让分布演化的过程从「推理时」转移到了「训练时」—— 利用训练本身的迭代过程,推动生成分布从噪声分布逐步演化至真实分布,推理时无需额外迭代,仅需一步生成即可,这也是其实现 1-NFE 高效推理的关键。
四、核心构件:漂移场的设计与实现
「漂移场」是漂移模型的核心,它既是连接生成样本与真实分布的桥梁,也是解决「分布难以直接计算」这一痛点的关键。要落地漂移场,需满足两个核心要求:可计算性(通过可操作方式近似求解)与平衡性质(分布匹配时推力为 0)。
1. 平衡性质:反对称性设计
漂移场需满足「当生成分布与真实分布匹配时,推力为 0」的平衡条件。论文中采用了简单有效的「反对称性」设计,其数学逻辑可直观理解为:当分布匹配时,漂移场的正向推力与反向推力相互抵消,最终推力为 0。这一设计虽只是实现平衡性质的充分条件,但足够简洁易落地,能高效逼近平衡态。
实验证明,反对称性是模型稳定收敛的关键 —— 若人为破坏这一性质(如放大吸引力或排斥力),模型性能会急剧下降,FID 值飙升。
2. 可计算性:核化吸引 - 排斥机制
漂移场同时依赖抽象的真实分布与生成分布,无法直接计算。对此,模型通过「采样近似分布 + 相似度量化 + 吸引 - 排斥机制」,将抽象分布转化为可计算数值:
-
核函数:相似度量化工具:引入核函数(如高斯核),将两个样本的相似度转化为具体权重,距离越近权重越大,让漂移场仅对样本附近区域产生作用,避免全局拉扯导致的训练不稳定。
-
吸引机制:贴近真实分布:从真实数据分布中采样「正样本」,通过核函数计算生成样本与正样本的相似度权重,构造「吸引方向」,让生成样本向真实数据密集区移动,保证生成质量。
-
排斥机制:保证多样性:从生成分布中采样「负样本」,通过核函数计算生成样本与负样本的相似度权重,构造「排斥方向」,推动生成样本远离其他生成样本,避免模式崩溃。
最终,漂移场由「吸引方向 - 排斥方向」构成,既保证生成样本贴近真实数据,又避免样本扎堆,兼顾了生成质量与多样性。
3. 训练信号:固定点残差 + stopgrad 自举
为避免直接对抽象分布反向传播导致的训练不稳定,模型采用「固定点残差 + stopgrad 自举」策略,将「推力归零」目标转化为可优化的回归误差,训练过程简洁高效:
-
生成当前样本:从噪声分布采样,通过当前模型生成样本;
-
计算漂移后目标:利用漂移场,得到样本「应移动到」的目标位置;
-
冻结目标位置:对目标位置施加 stopgrad 操作,避免高阶依赖,保证训练可行;
-
计算回归误差:让模型生成样本向冻结目标回归,损失函数收敛时,漂移场推力趋近于 0,训练完成。
五、实验结果:1-NFE 实现性能碾压,突破效率 - 质量困境
漂移模型的实验结果极具颠覆性,在 ImageNet 256x256 latent space 任务中,以 1-NFE 的推理效率,实现了远超同类一步生成模型、逼近甚至超越多步扩散模型的性能:
-
与多步模型对比:Drifting Model L/2 版本(463M 参数)的 FID 值低至 1.54,IS 值达 258.9,远超需 250×2 步迭代的 DiT-XL/2(FID=2.27,IS=278.2),且参数规模更小;
-
与一步生成模型对比:相较于 iMeanFlow-XL/2(FID=1.72,IS=282.0),漂移模型在参数更少的情况下,实现了更优的 FID 值,样本多样性更优;
-
关键发现:正负样本数量越多,模型效果越好 —— 更多样本能让网络更清晰地判断「真实数据密集区」与「生成样本分布」,漂移方向更准确;反对称性是稳定收敛的核心,破坏后模型性能会直接崩溃。
这一结果证明:当训练期将分布演化到极致平衡态时,推理期无需多步迭代,一步生成即可兼顾「瞬移」的效率与「漫步」的稳健。
六、总结:生成模型的本质回归与未来方向
漂移模型的革命性,不在于发明了新的算法,而在于对生成模型本质的清醒认知与框架重构 —— 它抛弃了传统模型复杂的「时间路径」工程结构,用「漂移场」连接生成样本与分布匹配目标,通过「核化吸引 - 排斥」解决可计算性问题,用「固定点残差 + stopgrad 自举」设计训练信号,最终实现了「一步生成 + 高质量分布匹配」的核心目标。
这一范式突破,不仅解决了生成模型长期存在的效率与质量矛盾,更为后续研究提供了全新思路:生成模型的核心是分布匹配,而非路径演化。未来,基于这一框架,或许能在高分辨率图像生成、视频生成等更复杂任务中,实现效率与质量的双重突破,推动生成式 AI 技术走向更广泛的落地场景。
