像挖币一样挖激活函数!DeepMind 搭建 AI「算力矿场」,挖出下一代 ReLU 级神器!

激活函数堪称神经网络的「引擎火花塞」,从早期的 Sigmoid、Tanh,到统治业界的 ReLU,再到近年热门的 GELU、Swish,每一次迭代都推动着模型性能的跨越式提升。但长期以来,寻找最优激活函数始终依赖人类直觉或有限的搜索空间,直到谷歌 DeepMind 的全新研究打破了这一僵局。

在最新重磅论文《Finding Generalizable Activation Functions》中,DeepMind 团队祭出 AI 驱动的「挖矿神器」AlphaEvolve,在无限的 Python 函数空间中暴力挖掘全新激活函数。这不仅是一次架构搜索(NAS)的重大突破,更开创了 AI 自主设计 AI 基础组件的全新方法论 —— 无需依赖海量真实数据,而是通过「微型实验室」聚焦分布外泛化(OOD Generalization)能力优化,最终不仅让机器重新发现了 GELU,更挖出了 GELUSine、GELU-Sinc-Perturbation 等性能卓越的新型函数,在算法推理任务中超越传统标杆,视觉任务中也保持顶尖竞争力。

一、告别手动调参!AlphaEvolve 的无限搜索魔法

传统神经架构搜索(NAS)往往被束缚在预定义的数学算子组合中,探索边界受限。而 DeepMind 打造的 AlphaEvolve,是一套由 LLM 驱动的进化编码系统,彻底打破了这一局限,让搜索空间扩展到所有可行的 Python 函数。

1. 核心动力:LLM 当「变异算子」

AlphaEvolve 以 Gemini 等前沿 LLM 作为核心「变异算子」,不再局限于离散的数学符号组合。只要函数符合计算预算(FLOPs)要求,且输入输出张量形状一致,任何 Python 代码都能成为潜在的激活函数。更贴心的是,LLM 生成新函数时,还会像人类程序员一样在代码注释中写下设计理论依据,让每一个新函数都有迹可循。

2. 进化循环:从 ReLU 到顶级函数的迭代之路

整个搜索流程形成了高效的闭环进化:

  1. 初始化:以经典的 ReLU 函数作为起点;

  2. LLM 提案:基于当前最优函数,生成全新的函数变体;

  3. 微型评估:将新函数植入小型多层感知机(MLP),在合成数据集上快速测试;

  4. 适应度筛选:核心考核分布外(OOD)测试损失,确保函数具备举一反三的泛化能力,而非仅在训练集上表现优异;

  5. 迭代进化:保留最优函数存入数据库,作为下一轮进化的种子,持续迭代优化。

这种模式充分利用了 LLM 蕴含的编程知识与数学直觉,让生成的函数更具意义,大幅提升了搜索效率。

二、微型实验室:小数据撬动大智慧

为了避免在 ImageNet 等大型数据集上产生高昂的搜索成本,DeepMind 创新性地搭建了「微型实验室」(Small-Scale Lab),用合成数据攻克泛化难题。

实验室精心设计了三类合成回归任务,专门测试函数捕捉数据本质结构的能力:

  • 随机多项式(Polynomials):考验函数的外推能力;

  • 球谐函数(Spherical Harmonics):验证对周期性结构的编码能力;

  • 费曼符号回归数据集(Feynman Symbolic Regression):测试拟合物理方程的能力。

关键设计在于训练集与测试集的分布偏移 —— 例如在 (0, 0.5) 区间训练,却要在 (0.5, 1) 区间测试,强制函数必须掌握核心规律才能通过考核。研究人员发现,能在这种「残酷测试」中脱颖而出的函数,往往能捕捉到更本质的归纳偏置,在真实世界任务中同样表现出色。

三、挖到的宝藏函数:周期性扰动成致胜关键

经过多轮迭代,AlphaEvolve 挖出了一系列特性鲜明的激活函数,其中表现最亮眼的函数都遵循着统一规律:f(x) = 标准激活函数 + 周期性扰动项,这种设计让模型泛化能力实现质的飞跃。

1. 明星选手:GELUSine 与 GELU-Sinc-Perturbation

  • GELUSine:公式为GELU(x) + 0.1 sin x,正弦项引入的周期性「摆动」,能帮助优化过程探索更广阔的损失景观,有效逃离局部极小值;

  • GELU-Sinc-Perturbation:公式为GELU(x)×(1 + 0.5 sinc x),既保留了 GELU 的渐近行为,又通过 Sinc 函数在原点附近引入了受控的非线性复杂性,兼顾稳定性与灵活性。

2. 其他探索:从复杂到失败的启示

  • GMTU(Gaussian-Modulated Tangent Unit):融合了 Tanh、高斯衰减和线性泄漏项,形状类似调制信号波,合成数据上表现不俗,但计算成本较高;

  • Turbulent(湍流激活函数):典型的「实验室高分低能」案例。它利用输入张量的 Batch 统计信息动态调整激活形状,在合成数据中测试损失碾压所有对手,但迁移到 ImageNet 等真实任务后性能一落千丈 —— 过度依赖特定数据集特征,丧失了逐点激活函数的通用性,也反向证明了逐点设计的鲁棒性。

四、真实世界大考:泛化能力碾压传统函数

为验证新函数的实用价值,DeepMind 将其植入 ResNet-50、VGG、GCN 等标准模型,在 CIFAR-10、ImageNet、CLRS-30、ogbg-molhiv 等数据集上展开全面测试,结果令人惊喜:

1. 算法推理任务:OOD 泛化之王

在强调小数据训练、大规模泛化的算法推理基准 CLRS-30 上,GELU-Sinc-Perturbation 拿下 0.887 的高分,显著优于 GELU(0.874)和 ReLU(0.862),完美验证了「合成 OOD 数据优化→真实泛化任务迁移」的核心假设。

2. 视觉任务:性能不落下风

在 ImageNet 任务中,GELUSine 和 GELU-Sinc-Perturbation 的 Top-1 准确率达到 74.5%,与 GELU 持平且远超 ReLU(73.5%)。要知道这些新函数仅基于小规模合成数据优化,却能在大型视觉数据集上媲美专门调校的传统函数,实力惊人。

3. 周期性的魔力:隐式频率分析

为什么周期性项能带来性能提升?研究人员解释,ReLU 等传统函数在训练域之外多呈线性,难以捕捉复杂数据结构;而 sin (x)、sinc (x) 等周期性项,能让模型在训练域内「存储」频率信息,外推时通过周期性结构「检索」这些信息,相当于一种「隐式频率分析」,让模型具备更强的复杂模式识别能力。

五、深层启示:AI 设计 AI 的时代已来

DeepMind 的这项研究不仅贡献了几款高性能激活函数,更带来了方法论的革新,引发业界对 AI 辅助科研的深度思考:

  1. 代码即搜索空间:LLM 直接生成 Python 代码,比预定义数学算子更灵活,且函数兼具可读性与可执行性;

  2. 泛化优先:激活函数设计的核心从优化梯度流动,转向塑造模型的归纳偏置,泛化能力成为关键考核指标;

  3. 小数据的力量:在 PB 级数据训练成为主流的今天,仅用几百个样本的合成数据集,就能挖掘出通用架构组件,证明精准定义任务本质比数据规模更重要。

未来,AI 模型的每一行代码、每一个算子,或许都将由 AI 自主书写。而我们需要做的,就是像 DeepMind 这样,为 AI 搭建合适的「进化实验室」。如果正在训练复杂图结构或强逻辑推理类模型,不妨尝试将 ReLU 替换为GELU(x)×(1 + 0.5 sinc(x)),大概率能收获意想不到的性能提升!

这个新激活函数看起来挺有意思的

这波操作有点东西

这思路挺有意思,用AI在代码空间里暴力搜索新激活函数,还专门测OOD泛化。不过真用起来还得看实际部署的成本和稳定性。

这方法挺有意思的

这个思路挺有意思的

GELUSine有点意思哈