当Transformer陷入深度困局:清华与千问用“孪生归一”打破AI架构僵局
十九世纪的暹罗王国曾有一对连体兄弟,他们各自拥有独立的大脑和四肢,却被腰部不足十厘米的结缔组织紧紧相连。这段生理上的束缚并未阻碍他们走向世界的舞台——在马戏团的十年巡演中,两人以惊人的默契征服欧美观众,最终名留青史。他们的名字,后来成为“连体双胞胎”的代称,也悄然跨越生物学边界,进入人工智能的殿堂。
1993年,Yann LeCun将这一概念引入神经网络,创造出Siamese Network(孪生网络),用于衡量输入之间的相似性。如今,在Transformer架构的演进中,又出现了一对“孪生兄弟”:Pre-Norm与Post-Norm。它们共同服务于同一个目标——稳定大模型的训练过程,却在实现路径上走向截然相反的方向。一个追求稳定,一个追求深度,如同两条平行线,似乎永远无法交汇。
架构困境:稳定与深度的零和博弈
Transformer的核心机制之一是残差连接,它允许信息在深层网络中无损传递。然而,归一化操作的位置选择,直接决定了模型的训练动态与表达能力。Pre-Norm将LayerNorm置于残差块之前,确保梯度在反向传播时畅通无阻,极大提升了训练稳定性。GPT-3、LLaMA、DeepSeek、Qwen等主流开源模型均采用此范式,正是看中了其在超大规模训练中的可靠性。
但代价显而易见。Pre-Norm保留了一条“干净的恒等路径”,导致主干信号幅度随网络深度指数级增长。到了深层,归一化后的输入相对于庞大的主干流几乎可以忽略不计,深层网络的贡献被严重“稀释”。实验显示,移除Pre-Norm模型中30%的深层参数,性能几乎不受影响——这暴露了其“有效深度”的严重缩水,模型实质上退化为浅层网络。
反观Post-Norm,它在残差相加后才进行归一化,强制约束信号幅度,理论上具备更强的表征能力。然而,每一步的“压缩”操作破坏了梯度的自然传导,极易引发梯度消失或爆炸。在现代Transformer的预训练范式下,这种不稳定性往往是毁灭性的,导致训练崩溃。
更深层的问题在于,这两种范式在单主干架构中本质上是互斥的。Pre-Norm依赖“无损梯度传输”,要求信号幅度自由增长;Post-Norm依赖“尺度束缚”,要求严格规范特征表达。在共享同一条主干路径的前提下,数学上无法同时满足这两个条件。任何试图在单流中混合两者的尝试,最终都沦为妥协——既未获得稳定性,也未释放深度潜力。
破局之道:双流解耦与协同进化
面对这一僵局,清华大学黄高Leap Lab团队与千问C端团队提出SiameseNorm,以一种近乎哲学的方式重构了问题本身。他们不再试图在单一流中调和矛盾,而是引入“孪生双流”机制,将优化动力学彻底解耦。
在SiameseNorm架构中,每个残差块被拆分为两条并行通路:一条是Pre-Norm流(Y流),负责“稳”;另一条是Post-Norm流(X流),负责“强”。两条流共享相同的输入和参数,但通过不同的LayerNorm位置实现功能分化。Y流保留未归一化状态,确保梯度高速公路畅通无阻;X流时刻保持归一化,防止特征坍塌或发散。
这种设计的精妙之处在于,它并非简单拼接两种范式,而是让它们在训练过程中动态协作。LayerNorm的可学习权重能够自动调节两条流的贡献比例,使模型在高学习率下仍能稳定收敛。实验表明,SiameseNorm在几乎不增加计算开销的前提下,显著提升了模型的表征能力与训练效率。
更值得深思的是,SiameseNorm的结构本身具有高度的灵活性。若将下半部分遮蔽,它退化为标准的Post-Norm;若遮蔽上半部分,则变为Pre-Norm。这种“可退化性”意味着它并非对现有范式的颠覆,而是一种包容性的演进——既继承了二者的优点,又规避了其结构性缺陷。
行业启示:从妥协到协同的范式跃迁
SiameseNorm的出现,标志着AI架构设计思路的一次重要跃迁。长期以来,研究者习惯在现有框架内寻求优化,试图通过调参、混合策略或工程技巧来弥合Pre-Norm与Post-Norm之间的鸿沟。然而,这种“修补式创新”始终无法突破单主干架构的理论极限。
真正的突破往往来自对问题本质的重新定义。SiameseNorm没有纠结于“前置还是后置”,而是跳出二元对立的思维定式,通过结构解耦实现功能协同。这提醒我们,在AI系统设计中,有时“分”比“合”更关键——将矛盾要素分离到不同维度,反而能激发新的可能性。
从更宏观的视角看,这一创新也折射出大模型研发的深层趋势:从追求单一指标的极致优化,转向多目标动态平衡。未来的基础模型不仅需要更强的表达能力,还需具备更高的训练效率、更低的资源消耗与更强的泛化能力。SiameseNorm所体现的“协同设计”理念,或许将成为下一代架构演进的重要方向。
未来展望:孪生架构的无限可能
尽管SiameseNorm目前主要应用于Transformer的归一化模块,但其核心思想——通过双流或多流结构解耦互斥目标——具有广泛的迁移潜力。在注意力机制、位置编码、甚至整个模型堆叠策略中,类似的“孪生设计”都可能催生新的突破。
更重要的是,这一工作重新唤醒了“Siamese”这一古老概念的当代价值。从生物学中的连体兄弟,到神经网络中的孪生结构,再到如今的双流归一化,技术的演进往往伴随着对自然智慧的隐喻与借鉴。当AI架构开始学会“分身协作”,我们或许正站在一个新时代的门槛上——在那里,稳定与深度不再是非此即彼的选择,而是可以共生的双翼。