小模型算术推理的暗流：位置复制效应颠覆我们对思维链的理解

2026-05-20 · 0 次浏览 ·来源: AI导航站

最新研究发现，小规模语言模型在算术任务中所谓的'思维链'推理，实则依赖一种隐蔽的位置复制机制。当GSM8K数据集上1-3B参数的指令微调模型被强制分步推理时，高达95%的情况下最终答案直接复制了步骤末尾的最后一个数字，而非真正理解运算逻辑。这种'捷径'贡献了54%-92%的正确率，甚至掩盖了中间步骤错误的存在。研究还发现，7B以上参数模型开始出现选择性过滤能力，暗示不同规模模型在算术处理上的本质差异。这一发现挑战了当前对思维链推理有效性的普遍认知，为改进小模型的数学能力指明了新方向。

思维链背后的复制陷阱

当研究者要求小型语言模型通过分步解释来完成数学题时，这些本应展示推理过程的AI系统却展现了一种令人意外的行为模式——它们不是真正进行逐步计算，而是将问题中最后出现的数字作为正确答案。这种现象在GSM8K基准测试中尤为明显，三个1-3B参数的经过指令微调的模型都表现出惊人的一致性：即使中间步骤完全错误，只要末尾数字与正确答案重合，系统就会给出正确结果。

这种'位置复制'机制不仅存在于算术任务中，还在GSM-Symbolic等符号推理任务上重现。研究者通过前缀补全实验隔离出答案读取阶段后发现，黄金答案的存在解释了模型54%-92%的性能提升空间。更令人惊讶的是，即便面对完全错误的中间步骤，模型有95%-96%的概率会复制末尾数字作为最终答案。

"这就像学生考试时看到最后一行有个数字就抄上去，完全不看前面写了什么。"一位参与研究的工程师形象地描述道。

架构层面的选择性门控

进一步分析表明，这种复制行为与模型架构密切相关。不同模型对复制内容的控制能力存在显著差异：Qwen和Llama会无条件复制任何出现在末尾的数值（包括干扰项），准确率高达87%-95%；而Gemma则展现出某种选择机制。研究者通过头级消融实验确认，这种效果确实源于特定架构中的头集设置。

当模型规模增大到7-8B参数时，情况开始发生变化。研究发现大模型发展出了内容选择性门控能力，能够区分真正需要保留的信息和无关的数字。这种规模相关的转变暗示着：小模型受限于容量，不得不依赖这种低效但可靠的复制策略，而大模型终于可以发展出更接近人类的分步推理能力。

对监督评估的警示

该研究还提出了对思维链评估方法的深刻质疑。传统方法容易将位置复制误认为是真实的计算过程，特别是在进行逐步骤忠实度评估时。研究团队指出，如果仅检查每个步骤的正确性而不考虑整体输出，可能会严重高估模型的真实推理能力。

当移除可复制的末尾数字时，某些模型性能反而提升了5-32个百分点
即使是单步加法运算（模型本来就能完成的任务），只要存在可复制的数字，正确率就会暴跌至接近零

这些发现对当前AI评估体系构成了挑战。许多研究声称的思维链优势，可能只是表面现象下隐藏的复制捷径。

行业启示与未来方向

这一发现对AI领域产生了多重影响。首先，它解释了为什么小模型在算术任务上表现如此糟糕——因为它们本质上是在玩'数字接龙'游戏而非真正解题。其次，研究结果提示我们，单纯增加思维链的长度可能不会带来预期中的性能提升，反而可能加剧这种复制偏差。

从工程实践角度看，研究人员需要考虑两种解决方案：一种是设计特殊的prompt结构来抑制复制行为，比如强制模型在每个步骤后验证结果；另一种是开发专门针对小模型的算术训练范式，让模型真正学习分步计算而非依赖位置线索。值得注意的是，7B以上模型已显示出更好的内在能力，这可能意味着模型规模的扩大自然会带来推理质量的提升。

更长远来看，这项研究呼吁建立新的评估标准，区分真正的计算能力和表面模仿行为。未来的基准测试可能需要加入专门的'抗复制'测试，要求模型即使在没有明确数字提示的情况下也能完成相同任务。这种变革不仅关乎数学能力，也将推动整个领域对思维链推理本质的更深入理解。