解码AI的'盲点'：Transformer如何学会处理从未见过的符号

2026-04-23 · 0 次浏览 ·来源: AI导航站

本文深入探讨了大型语言模型在符号推理任务中的泛化瓶颈，揭示了模型在处理训练数据中未出现过的变量名时表现不佳的根本原因。研究发现，表征坍缩现象——即未见过的token在训练过程中其反嵌入向量坍缩为几乎相同的向量——是导致这一问题的关键机制。基于此发现，作者提出了一套结合架构微调、数据多样性和嵌入层重置的创新方法，显著提升了模型对新颖符号的处理能力。研究不仅通过合成实验验证了理论假设，还在开源模型Gemma 3中发现了类似的表征坍缩现象，并证实其对下游微调任务构成挑战。该工作为理解大模型的推理局限提供了可解释的机制视角，也为提升其逻辑泛化能力指明了技术路径。

当人工智能系统被要求在数学证明或逻辑谜题中运用抽象规则时，它们往往暴露出令人惊讶的脆弱性。即便模型在训练阶段已充分接触大量类似问题，一旦遇到使用全新变量名的命题逻辑题，其准确率便会急剧下降。这一现象并非个别案例，而是当前基于Transformer架构的大型语言模型普遍面临的'泛化鸿沟'。

近期一项系统性研究表明，这种泛化失败背后存在一个深层且常被忽视的机制性障碍：表征坍缩。具体而言，在标准decoder-only的Transformer架构中，当模型遭遇训练语料中未曾出现的token（如新变量名x123而非x0-x9），其最后一层的'反嵌入权重'会在训练过程中逐渐收敛到高度相似的向量空间位置。这意味着，尽管输入的是完全不同的符号，模型内部却将这些新变量映射到了几乎相同的语义表示上。

从符号到向量的断裂带

传统的观点将模型无法处理未见token归因于'复制困难'——即模型难以精确生成新的词汇或符号。然而，最新实证分析显示，真正的症结在于表征层面。以命题逻辑推理为例，若问题中出现'p∨q'这样的基础形式尚可应对，但换成'z5∧¬w2'时错误率飙升。进一步拆解发现，即便模型能正确读取这些新符号，其在后续推理链中对其含义的理解和区分能力也大打折扣。

“这就像给每张独特的卡片贴上了几乎相同的标签，导致模型无法建立有效的分类边界。”

研究人员通过控制实验量化了这一效应：在共享嵌入与反嵌入权重的配置下，多个未见变量的最终表征余弦相似度可达0.8以上，远超正常语义差异应有的水平。而当解除参数共享后，虽然缓解但未根本解决该问题，说明架构设计本身即是诱因之一。

干预策略的有效性检验

有趣的是，业界已有启发式解决方案试图缓解此困境，其中最典型的是所谓的'主动遗忘'(active forgetting)技术——即在训练周期中定期清空或随机初始化部分token的嵌入矩阵。这类做法在实践中确有一定成效，但其作用机理长期缺乏透明解释。

本研究首次给出了清晰的因果链条：表征坍缩直接削弱了模型对不同未知实体进行分辨的能力；而周期性重置恰好打破了权重间的强相关性，迫使模型重新学习区分性特征。这解释了为何此类技巧能在不改变网络结构的前提下提升性能。

超越合成数据：真实模型中的证据

研究团队进一步将结论延伸至实际部署场景。他们分析了Google开源的Gemma 3系列模型家族，意外发现在保留给下游任务的99个预留token中，存在明显的嵌入相关性异常。这些预留槽位的初始向量彼此间高度接近，形成所谓的'僵尸集群'。更关键的是，当用这些预训练好的嵌入作为迁移学习的起点时，下游任务的适应效率显著低于随机初始化方案。

这一发现暗示，即使是专为扩展设计的预留资源，在标准预训练流程中也未能获得应有的独立表征空间。换言之，当前的大规模训练范式可能无意中浪费了宝贵的容量资源，未能有效激发模型对潜在未知符号的容纳潜力。

构建更具鲁棒性的推理系统

基于上述洞察，作者提出了一个综合性改进框架，融合了三个维度：(1) 引入轻量级的前缀编码模块增强特定符号的复制保真度；(2) 构建涵盖广泛命名风格的数据集以打破模式固化；(3) 实施动态冻结/重设策略维护嵌入空间的稀疏性。实验表明，这套组合拳可将未见变量的推理准确率提升近40个百分点，且在复杂嵌套逻辑问题上展现出更强的稳定性。

这项工作的意义远超单一任务优化。它揭示了大模型'黑箱'内部存在的结构性偏见，也为评估模型的真正推理能力提供了更严苛的标准。未来，我们或将看到更多针对表征空间健康度的监控工具诞生，以及专门强化符号操作能力的预训练目标设计。毕竟，唯有让AI真正'看见'那些不可见的可能性，才谈得上实现可靠的智能跃迁。