当AI开始“挖矿”：DeepMind用算法暴力破解激活函数进化密码

2026-02-07 · 0 次浏览 ·来源: AI导航站

激活函数作为神经网络的核心组件，长期依赖人类经验设计。如今，DeepMind通过AlphaEvolve算法在无限函数空间中系统性搜索，首次实现从“人工设计”到“机器挖掘”的范式转变。这一突破不仅催生出性能超越ReLU的新函数，更标志着AI系统开始具备自主探索基础架构的能力，或将重塑整个模型设计生态。

在人工智能的底层架构中，激活函数如同引擎中的火花塞——它决定了神经元是否被“点燃”，信息能否在深层网络中有效传递。从Sigmoid到ReLU，再到GELU与Swish，每一次激活函数的革新都曾推动模型性能跃迁。但过去几十年，这些突破几乎都源于研究者的灵感闪现或有限试错，而非系统性探索。如今，DeepMind正用一场算法驱动的“暴力搜索”，彻底改写这一游戏规则。

从直觉到算法：激活函数设计的范式转移

传统上，激活函数的设计高度依赖领域专家的直觉与经验。ReLU之所以成功，部分原因在于其简洁性与缓解梯度消失的能力，但这种“简洁美”背后是大量失败尝试的沉淀。研究人员往往在已知函数族（如分段线性、指数族）中微调参数，搜索空间极为有限。而DeepMind此次发布的《Finding Generalizable Activation Functions》提出了一种截然不同的思路：将激活函数视为可在无限Python函数空间中自由组合的“代码片段”，通过强化学习与进化策略协同驱动的AlphaEvolve算法，进行大规模自动化挖掘。

这一方法的核心在于“泛化性优先”的评估机制。不同于以往仅关注单一任务（如ImageNet分类）上的表现，AlphaEvolve在训练过程中强制要求候选函数在多种架构（如ResNet、Transformer）、多种数据集（包括视觉、语言任务）以及不同优化器设置下均保持稳定增益。这种跨域压力测试极大提升了新函数的鲁棒性，也避免了过拟合特定实验环境的“虚假创新”。

算力即矿场：当架构搜索遇上函数挖掘

DeepMind此次工作的另一重突破，是将神经架构搜索（NAS）的逻辑延伸至激活函数层面。AlphaEvolve本质上构建了一个“算力矿场”——利用大规模分布式计算资源，并行评估数百万个候选函数。每个函数被视为一个“矿点”，其“含金量”由其在多任务、多架构下的泛化性能决定。通过进化算法中的变异、交叉与选择机制，系统不断迭代出更优解。

值得注意的是，这一过程并非盲目枚举。AlphaEvolve引入了语法约束与语义过滤机制，确保生成的函数具备可微性、数值稳定性等基本数学属性，避免陷入无意义的搜索空间。同时，算法还融入了人类先验知识作为引导，例如偏好低计算复杂度的表达式，从而在探索与效率之间取得平衡。

超越ReLU：新函数为何更“通用”？

实验结果显示，由AlphaEvolve挖掘出的新激活函数在多个基准测试中 consistently 优于ReLU及其变体。尤其在深层Transformer架构中，新函数展现出更强的梯度传播能力与训练稳定性。更关键的是，这些函数并非针对某一特定任务优化，而是在跨模态、跨架构场景中均表现出提升，真正实现了“通用性”突破。

这一成果的深层意义在于，它验证了“自动化基础组件发现”的可行性。过去，AI系统的进步往往依赖于人类对底层机制的深刻理解；而如今，算法本身开始具备探索这些机制的能力。这不仅是工程效率的提升，更是AI自主性演进的重要标志。

未来已来：AI或将重新定义“设计”本身

DeepMind的工作预示着一场更广泛的范式变革。当激活函数可以被“挖掘”，其他基础组件——如归一化层、注意力机制、甚至损失函数——是否也将进入自动化探索的范畴？一旦AI系统能够自主发现并验证新的计算原语，模型设计的门槛将大幅降低，创新速度可能呈指数级增长。

然而，这也带来新的挑战。自动生成的函数往往缺乏直观解释性，其内部机制如同“黑箱中的黑箱”。如何在自动化与可解释性之间取得平衡，将是下一阶段研究的关键。此外，算力消耗仍是巨大瓶颈——这场“挖矿”行动依赖海量计算资源，可能加剧AI研发的集中化趋势。

无论如何，DeepMind的尝试已打开一扇新门：当AI开始自主探索其自身的构建模块，我们或许正站在一个新时代的起点。在这里，创新不再 solely 依赖人类的灵光一现，而是由算法在无限空间中持续“挖掘”而出。