当Transformer陷入深度困局：清华与千问用“孪生归一”打破AI架构僵局

2026-02-10 · 0 次浏览 ·来源: AI导航站

在大型语言模型的演进中，Transformer架构的归一化策略长期面临稳定与深度的两难抉择。Pre-Norm虽保障了训练稳定性，却导致深层参数失效；Post-Norm具备更强的表征潜力，却难以驾驭训练过程。清华大学黄高Leap Lab团队联合千问C端团队提出SiameseNorm，通过构建共享参数的双流架构，将两种范式从对立转化为协同。该设计既保留了Pre-Norm的梯度畅通优势，又释放了Post-Norm的表达能力，在高学习率下实现稳定训练，为下一代基础模型架构提供了新范式。

十九世纪的暹罗王国曾有一对连体兄弟，他们各自拥有独立的大脑和四肢，却被腰部不足十厘米的结缔组织紧紧相连。这段生理上的束缚并未阻碍他们走向世界的舞台——在马戏团的十年巡演中，两人以惊人的默契征服欧美观众，最终名留青史。他们的名字，后来成为“连体双胞胎”的代称，也悄然跨越生物学边界，进入人工智能的殿堂。

1993年，Yann LeCun将这一概念引入神经网络，创造出Siamese Network（孪生网络），用于衡量输入之间的相似性。如今，在Transformer架构的演进中，又出现了一对“孪生兄弟”：Pre-Norm与Post-Norm。它们共同服务于同一个目标——稳定大模型的训练过程，却在实现路径上走向截然相反的方向。一个追求稳定，一个追求深度，如同两条平行线，似乎永远无法交汇。

架构困境：稳定与深度的零和博弈

Transformer的核心机制之一是残差连接，它允许信息在深层网络中无损传递。然而，归一化操作的位置选择，直接决定了模型的训练动态与表达能力。Pre-Norm将LayerNorm置于残差块之前，确保梯度在反向传播时畅通无阻，极大提升了训练稳定性。GPT-3、LLaMA、DeepSeek、Qwen等主流开源模型均采用此范式，正是看中了其在超大规模训练中的可靠性。

但代价显而易见。Pre-Norm保留了一条“干净的恒等路径”，导致主干信号幅度随网络深度指数级增长。到了深层，归一化后的输入相对于庞大的主干流几乎可以忽略不计，深层网络的贡献被严重“稀释”。实验显示，移除Pre-Norm模型中30%的深层参数，性能几乎不受影响——这暴露了其“有效深度”的严重缩水，模型实质上退化为浅层网络。

反观Post-Norm，它在残差相加后才进行归一化，强制约束信号幅度，理论上具备更强的表征能力。然而，每一步的“压缩”操作破坏了梯度的自然传导，极易引发梯度消失或爆炸。在现代Transformer的预训练范式下，这种不稳定性往往是毁灭性的，导致训练崩溃。

更深层的问题在于，这两种范式在单主干架构中本质上是互斥的。Pre-Norm依赖“无损梯度传输”，要求信号幅度自由增长；Post-Norm依赖“尺度束缚”，要求严格规范特征表达。在共享同一条主干路径的前提下，数学上无法同时满足这两个条件。任何试图在单流中混合两者的尝试，最终都沦为妥协——既未获得稳定性，也未释放深度潜力。

破局之道：双流解耦与协同进化

面对这一僵局，清华大学黄高Leap Lab团队与千问C端团队提出SiameseNorm，以一种近乎哲学的方式重构了问题本身。他们不再试图在单一流中调和矛盾，而是引入“孪生双流”机制，将优化动力学彻底解耦。

在SiameseNorm架构中，每个残差块被拆分为两条并行通路：一条是Pre-Norm流（Y流），负责“稳”；另一条是Post-Norm流（X流），负责“强”。两条流共享相同的输入和参数，但通过不同的LayerNorm位置实现功能分化。Y流保留未归一化状态，确保梯度高速公路畅通无阻；X流时刻保持归一化，防止特征坍塌或发散。

这种设计的精妙之处在于，它并非简单拼接两种范式，而是让它们在训练过程中动态协作。LayerNorm的可学习权重能够自动调节两条流的贡献比例，使模型在高学习率下仍能稳定收敛。实验表明，SiameseNorm在几乎不增加计算开销的前提下，显著提升了模型的表征能力与训练效率。

更值得深思的是，SiameseNorm的结构本身具有高度的灵活性。若将下半部分遮蔽，它退化为标准的Post-Norm；若遮蔽上半部分，则变为Pre-Norm。这种“可退化性”意味着它并非对现有范式的颠覆，而是一种包容性的演进——既继承了二者的优点，又规避了其结构性缺陷。

行业启示：从妥协到协同的范式跃迁

SiameseNorm的出现，标志着AI架构设计思路的一次重要跃迁。长期以来，研究者习惯在现有框架内寻求优化，试图通过调参、混合策略或工程技巧来弥合Pre-Norm与Post-Norm之间的鸿沟。然而，这种“修补式创新”始终无法突破单主干架构的理论极限。

真正的突破往往来自对问题本质的重新定义。SiameseNorm没有纠结于“前置还是后置”，而是跳出二元对立的思维定式，通过结构解耦实现功能协同。这提醒我们，在AI系统设计中，有时“分”比“合”更关键——将矛盾要素分离到不同维度，反而能激发新的可能性。

从更宏观的视角看，这一创新也折射出大模型研发的深层趋势：从追求单一指标的极致优化，转向多目标动态平衡。未来的基础模型不仅需要更强的表达能力，还需具备更高的训练效率、更低的资源消耗与更强的泛化能力。SiameseNorm所体现的“协同设计”理念，或许将成为下一代架构演进的重要方向。

未来展望：孪生架构的无限可能

尽管SiameseNorm目前主要应用于Transformer的归一化模块，但其核心思想——通过双流或多流结构解耦互斥目标——具有广泛的迁移潜力。在注意力机制、位置编码、甚至整个模型堆叠策略中，类似的“孪生设计”都可能催生新的突破。

更重要的是，这一工作重新唤醒了“Siamese”这一古老概念的当代价值。从生物学中的连体兄弟，到神经网络中的孪生结构，再到如今的双流归一化，技术的演进往往伴随着对自然智慧的隐喻与借鉴。当AI架构开始学会“分身协作”，我们或许正站在一个新时代的门槛上——在那里，稳定与深度不再是非此即彼的选择，而是可以共生的双翼。