当推理模型越长越聪明，为何反而更固执？

2026-05-11 · 0 次浏览 ·来源: AI导航站

arXiv:2605.06672v1 Announce Type: new Abstract: Chain-of-thought (CoT) reasoning and reasoning-tuned models such as DeepSeek-R1 are commonly assumed to reduce shallow heuristic biases by thinking carefully. We test this on position bias in multiple-choice QA and find a different story: within any reasoning-capable model, per-question position bias scales with the length of the reasoning trajectory....

在人工智能领域，推理能力的突破被视为通向通用智能的关键一步。从早期基于模板的问答系统，到如今具备自主推导能力的深度思考型模型，业界普遍认为‘更多思考’意味着更少犯错。然而，一项发表于预印本平台的研究却提出了一个令人意外的观点：当模型进行更长的推理时，它可能并非变得更客观，而是发展出了一种新的、更具迷惑性的认知偏好——位置偏差。

背景：为什么我们以为‘想得越多越理性’？

近年来，以DeepSeek-R1为代表的推理微调模型迅速崛起，它们不再满足于直接输出答案，而是展现出类似人类的逐步分析过程。这种‘链式思维’（Chain-of-Thought, CoT）模式被广泛解读为一种克服直觉误判的有效策略。传统观点认为，复杂的逻辑链条能有效过滤掉基于表面特征的快速判断，从而提升决策质量。在这种乐观预期下，模型长度——即生成推理步骤的数量——成为衡量其智能程度的重要指标。

然而，现实远比理论假设复杂。许多基础心理学实验早已揭示人类在多项选择题中普遍存在位置偏差：人们倾向于选择排在中间或靠后的选项，因为前序选项容易被视为干扰项，而末尾选项则因‘最后印象效应’显得更可信。这种非理性的偏好曾长期困扰着教育测量和临床诊断等领域。如今，当AI开始模仿人类思考路径时，是否也会继承这一弱点？

核心发现：推理长度与位置偏好的正相关关系

研究团队设计了一套严谨的多选题测试框架，涵盖科学常识、逻辑推理等多个维度。他们对比了不同参数规模的模型在不同推理长度下的表现，结果令人震惊：随着推理步骤的增加，模型对选项位置的敏感度显著上升。具体而言，当模型生成超过100个推理token后，其正确率开始出现剧烈波动——若正确答案位于列表后部（如第4或第5位），即使内容完全正确，模型的采纳概率也大幅下降；反之，若正确答案靠前，即便逻辑链条存在漏洞，采纳率仍居高不下。

进一步分析表明，这种偏差并非源于训练数据中的显式标注，而是模型在反复学习人类回答模式的过程中无意识内化的结果。更关键的是，该偏差具有高度可迁移性：在一个领域训练的模型会将其位置敏感性带到其他场景中，即便面对全新题型也难以摆脱。这说明位置偏好已成为深层表征的一部分，而非简单的记忆效应。

行业影响与深层反思

这一发现对整个AI研发生态构成了严峻挑战。首先，现有基准测试往往采用固定顺序的选项排列，这实际上为所有模型提供了不公平的优势，导致性能评估失真。其次，在实际部署中，用户无法控制系统输出的结构布局，这意味着模型可能会因为自身偏好而忽略真正合理的答案。例如，在医疗诊断建议系统中，若关键治疗方案恰好被放置在末尾位置，其采纳可能性将大打折扣，直接影响患者安全。

值得注意的是，主流厂商目前对此类问题鲜有公开回应。多数公司仍将推理能力作为核心卖点，却未建立相应的偏差检测机制。这反映出一个根本矛盾：我们既希望AI具备类人思维的深度，又无法容忍其继承人类的所有缺陷。如何在保留CoT优势的同时消除此类隐性偏见，将成为下一代模型设计的关键课题。

未来方向：构建更鲁棒的评估范式

要解决位置偏差问题，必须重构现有的评估方法论。一方面，测试集应包含动态打乱的选项排列，并通过统计方法量化不同排序下的稳定性指标；另一方面，模型架构层面可引入对抗训练策略，强制其在不同位置呈现同等强度的证据支持。此外，跨模态对齐也被视为潜在突破口——如果能结合视觉线索或其他上下文信息打破纯文本序列依赖，或许能从根本上削弱位置效应。

长远来看，这项研究提醒我们：AI的‘聪明’不应仅由输出长度定义，而应建立在公平性、一致性和可解释性之上。当技术发展到今天这个阶段，我们更需要警惕那些看似微小却极具破坏力的认知盲区。毕竟，一个连基本排序都看不透的系统，再长的推理链也只是空中楼阁。