揭秘AI训练中的'数据重叠陷阱'：SFT与GRPO的零重叠为何更优？

2026-04-15 · 0 次浏览 ·来源: AI导航站

一项关于大型语言模型后训练策略的突破性研究发现，在监督微调（SFT）与Group Relative Policy Optimization（GRPO）之间保持训练数据完全分离，能显著提升Lean 4自动形式化任务的编译和语义准确性。研究表明，当SFT与GRPO数据100%重叠时，GRPO阶段几乎失效；而零重叠配置下，语义准确率提升达10.4个百分点。这一发现颠覆了传统认为更多数据接触应带来更好效果的理解，揭示了数据复用对强化学习阶段效果的抑制作用，为高效、低成本的后训练优化提供了新思路。

在大型语言模型（LLM）的后训练阶段，如何最大化利用有限的计算资源并实现最优性能表现，一直是业界关注的焦点。Supervised Fine-Tuning (SFT) 后接 Group Relative Policy Optimization (GRPO) 已成为一种常见且有效的范式。然而，这一过程中一个关键但常被忽视的超参数——SFT与GRPO阶段训练数据的重叠程度——其影响却鲜有系统性的深入探讨。

背景分析：后训练优化的常见路径与潜在误区

当前，许多顶尖模型都采用‘先SFT后GRPO’的两步走策略。SFT阶段，模型通过大量标注好的输入-输出对进行微调，使其能够模仿理想答案。随后的GRPO阶段则利用强化学习，让模型通过与奖励模型的交互不断优化自身生成策略，以期在不依赖人类标注的情况下，自主探索并逼近更高质量的输出模式。

在这一框架下，一个直观且常见的做法是，将GRPO阶段使用的提示（prompts）直接复用SFT阶段的数据。这种做法的逻辑在于，既然模型已经在这些提示上‘见过’了标准答案，那么在此基础上进行策略优化，似乎理应能取得更好的效果。然而，这种看似合理的假设，是否真的经得起实践的检验？

核心内容：零重叠策略的惊人优势

为了科学地验证这一假设，研究团队设计并实施了一项严谨的消融实验。他们选择了Qwen3-8B模型（思考模式关闭），并将其用于Lean 4自动形式化的任务。该任务要求模型将自然语言描述转化为严格的数学证明代码。研究人员设置了六种不同的训练配置，所有配置仅在SFT与GRPO数据的重叠比例上有所区别。

具体而言，他们考察了从0%到100%的不同重叠情况，包括：仅使用基础模型、仅进行SFT、仅进行GRPO，以及三种SFT+GRPO的组合，其中GRPO阶段使用的提示与SFT数据分别有0%、30%和100%的重合。

实验结果令人惊讶且极具启发性。在所有情况下，保持SFT和GRPO数据完全分离（即0%重叠）的配置，在无需额外计算成本的前提下，始终优于数据完全重叠（100%重叠）的情况。更为关键的是，评估结果显示，较低的SFT-GRPO数据重叠度与更高的编译通过率和语义准确性呈单调正相关。

在0%重叠的配置下，GRPO阶段相比单独的SFT，在Gaokao-Formal基准测试上的语义准确率提升了10.4个百分点。而当重叠率达到100%时，无论是编译通过率还是语义准确率都几乎没有变化，这意味着GRPO阶段的作用被严重削弱，甚至变得冗余。

这一发现挑战了我们对数据复用价值的普遍认知。它暗示，当模型在SFT阶段已经‘见过’某个提示及其理想答案后，在GRPO阶段再次遇到相同的提示时，模型可能倾向于‘保守复制’而非‘创造性探索’。强化学习的精髓在于通过试错和奖励信号引导模型跳出局部最优，而如果每一步探索都受限于已见的‘正确答案’，这种自我强化的循环就可能阻碍模型的真正进化。

深度点评：编译与语义的鸿沟与启示

研究团队进一步揭示了一个更深层的问题：传统的评估方式可能掩盖了模型能力的真实差距。他们指出，仅以‘编译通过率’作为评价标准，容易产生误导。因为在100%数据重叠的场景下，模型或许能通过简单记忆或模式匹配，达到较高的编译通过率，但其生成的代码逻辑（语义）可能并不正确或健壮。

通过引入‘语义通过率’的评估（由另一个大型语言模型担任裁判），研究人员发现，即使是编译通过率最高的模型，其与语义通过率之间也存在超过30个百分点的巨大差距。这说明，模型可能在表面上‘成功’地通过了编译检查，但其内在推理过程或最终结论却存在根本性错误。这种‘编译-语义鸿沟’在传统benchmark中往往被忽略，导致我们高估了某些模型的真实能力。

这一系列发现为我们理解后训练优化提供了新的视角。首先，它强调了数据多样性和新颖性的重要性。其次，它警示我们，不能仅仅因为一个模型在某个任务上取得了‘好’的结果，就断定其具备了真正的泛化能力和深度理解。最后，它也提醒开发者，在设计强化学习阶段的提示时，应尽量避免与微调阶段的提示产生过多重合，以鼓励模型进行更具创造性的探索。