当AI开始“挖矿”:DeepMind用算法暴力破解激活函数进化密码
在人工智能的底层架构中,激活函数如同引擎中的火花塞——它决定了神经元是否被“点燃”,信息能否在深层网络中有效传递。从Sigmoid到ReLU,再到GELU与Swish,每一次激活函数的革新都曾推动模型性能跃迁。但过去几十年,这些突破几乎都源于研究者的灵感闪现或有限试错,而非系统性探索。如今,DeepMind正用一场算法驱动的“暴力搜索”,彻底改写这一游戏规则。
从直觉到算法:激活函数设计的范式转移
传统上,激活函数的设计高度依赖领域专家的直觉与经验。ReLU之所以成功,部分原因在于其简洁性与缓解梯度消失的能力,但这种“简洁美”背后是大量失败尝试的沉淀。研究人员往往在已知函数族(如分段线性、指数族)中微调参数,搜索空间极为有限。而DeepMind此次发布的《Finding Generalizable Activation Functions》提出了一种截然不同的思路:将激活函数视为可在无限Python函数空间中自由组合的“代码片段”,通过强化学习与进化策略协同驱动的AlphaEvolve算法,进行大规模自动化挖掘。
这一方法的核心在于“泛化性优先”的评估机制。不同于以往仅关注单一任务(如ImageNet分类)上的表现,AlphaEvolve在训练过程中强制要求候选函数在多种架构(如ResNet、Transformer)、多种数据集(包括视觉、语言任务)以及不同优化器设置下均保持稳定增益。这种跨域压力测试极大提升了新函数的鲁棒性,也避免了过拟合特定实验环境的“虚假创新”。
算力即矿场:当架构搜索遇上函数挖掘
DeepMind此次工作的另一重突破,是将神经架构搜索(NAS)的逻辑延伸至激活函数层面。AlphaEvolve本质上构建了一个“算力矿场”——利用大规模分布式计算资源,并行评估数百万个候选函数。每个函数被视为一个“矿点”,其“含金量”由其在多任务、多架构下的泛化性能决定。通过进化算法中的变异、交叉与选择机制,系统不断迭代出更优解。
值得注意的是,这一过程并非盲目枚举。AlphaEvolve引入了语法约束与语义过滤机制,确保生成的函数具备可微性、数值稳定性等基本数学属性,避免陷入无意义的搜索空间。同时,算法还融入了人类先验知识作为引导,例如偏好低计算复杂度的表达式,从而在探索与效率之间取得平衡。
超越ReLU:新函数为何更“通用”?
实验结果显示,由AlphaEvolve挖掘出的新激活函数在多个基准测试中 consistently 优于ReLU及其变体。尤其在深层Transformer架构中,新函数展现出更强的梯度传播能力与训练稳定性。更关键的是,这些函数并非针对某一特定任务优化,而是在跨模态、跨架构场景中均表现出提升,真正实现了“通用性”突破。
这一成果的深层意义在于,它验证了“自动化基础组件发现”的可行性。过去,AI系统的进步往往依赖于人类对底层机制的深刻理解;而如今,算法本身开始具备探索这些机制的能力。这不仅是工程效率的提升,更是AI自主性演进的重要标志。
未来已来:AI或将重新定义“设计”本身
DeepMind的工作预示着一场更广泛的范式变革。当激活函数可以被“挖掘”,其他基础组件——如归一化层、注意力机制、甚至损失函数——是否也将进入自动化探索的范畴?一旦AI系统能够自主发现并验证新的计算原语,模型设计的门槛将大幅降低,创新速度可能呈指数级增长。
然而,这也带来新的挑战。自动生成的函数往往缺乏直观解释性,其内部机制如同“黑箱中的黑箱”。如何在自动化与可解释性之间取得平衡,将是下一阶段研究的关键。此外,算力消耗仍是巨大瓶颈——这场“挖矿”行动依赖海量计算资源,可能加剧AI研发的集中化趋势。
无论如何,DeepMind的尝试已打开一扇新门:当AI开始自主探索其自身的构建模块,我们或许正站在一个新时代的起点。在这里,创新不再 solely 依赖人类的灵光一现,而是由算法在无限空间中持续“挖掘”而出。