揭秘AI训练中的'数据重叠陷阱':SFT与GRPO的零重叠为何更优?

· 0 次浏览 ·来源: AI导航站
一项关于大型语言模型后训练策略的突破性研究发现,在监督微调(SFT)与Group Relative Policy Optimization(GRPO)之间保持训练数据完全分离,能显著提升Lean 4自动形式化任务的编译和语义准确性。研究表明,当SFT与GRPO数据100%重叠时,GRPO阶段几乎失效;而零重叠配置下,语义准确率提升达10.4个百分点。这一发现颠覆了传统认为更多数据接触应带来更好效果的理解,揭示了数据复用对强化学习阶段效果的抑制作用,为高效、低成本的后训练优化提供了新思路。

在大型语言模型(LLM)的后训练阶段,如何最大化利用有限的计算资源并实现最优性能表现,一直是业界关注的焦点。Supervised Fine-Tuning (SFT) 后接 Group Relative Policy Optimization (GRPO) 已成为一种常见且有效的范式。然而,这一过程中一个关键但常被忽视的超参数——SFT与GRPO阶段训练数据的重叠程度——其影响却鲜有系统性的深入探讨。

背景分析:后训练优化的常见路径与潜在误区

当前,许多顶尖模型都采用‘先SFT后GRPO’的两步走策略。SFT阶段,模型通过大量标注好的输入-输出对进行微调,使其能够模仿理想答案。随后的GRPO阶段则利用强化学习,让模型通过与奖励模型的交互不断优化自身生成策略,以期在不依赖人类标注的情况下,自主探索并逼近更高质量的输出模式。

在这一框架下,一个直观且常见的做法是,将GRPO阶段使用的提示(prompts)直接复用SFT阶段的数据。这种做法的逻辑在于,既然模型已经在这些提示上‘见过’了标准答案,那么在此基础上进行策略优化,似乎理应能取得更好的效果。然而,这种看似合理的假设,是否真的经得起实践的检验?

核心内容:零重叠策略的惊人优势

为了科学地验证这一假设,研究团队设计并实施了一项严谨的消融实验。他们选择了Qwen3-8B模型(思考模式关闭),并将其用于Lean 4自动形式化的任务。该任务要求模型将自然语言描述转化为严格的数学证明代码。研究人员设置了六种不同的训练配置,所有配置仅在SFT与GRPO数据的重叠比例上有所区别。

具体而言,他们考察了从0%到100%的不同重叠情况,包括:仅使用基础模型、仅进行SFT、仅进行GRPO,以及三种SFT+GRPO的组合,其中GRPO阶段使用的提示与SFT数据分别有0%、30%和100%的重合。

实验结果令人惊讶且极具启发性。在所有情况下,保持SFT和GRPO数据完全分离(即0%重叠)的配置,在无需额外计算成本的前提下,始终优于数据完全重叠(100%重叠)的情况。更为关键的是,评估结果显示,较低的SFT-GRPO数据重叠度与更高的编译通过率和语义准确性呈单调正相关。

在0%重叠的配置下,GRPO阶段相比单独的SFT,在Gaokao-Formal基准测试上的语义准确率提升了10.4个百分点。而当重叠率达到100%时,无论是编译通过率还是语义准确率都几乎没有变化,这意味着GRPO阶段的作用被严重削弱,甚至变得冗余。

这一发现挑战了我们对数据复用价值的普遍认知。它暗示,当模型在SFT阶段已经‘见过’某个提示及其理想答案后,在GRPO阶段再次遇到相同的提示时,模型可能倾向于‘保守复制’而非‘创造性探索’。强化学习的精髓在于通过试错和奖励信号引导模型跳出局部最优,而如果每一步探索都受限于已见的‘正确答案’,这种自我强化的循环就可能阻碍模型的真正进化。

深度点评:编译与语义的鸿沟与启示

研究团队进一步揭示了一个更深层的问题:传统的评估方式可能掩盖了模型能力的真实差距。他们指出,仅以‘编译通过率’作为评价标准,容易产生误导。因为在100%数据重叠的场景下,模型或许能通过简单记忆或模式匹配,达到较高的编译通过率,但其生成的代码逻辑(语义)可能并不正确或健壮。

通过引入‘语义通过率’的评估(由另一个大型语言模型担任裁判),研究人员发现,即使是编译通过率最高的模型,其与语义通过率之间也存在超过30个百分点的巨大差距。这说明,模型可能在表面上‘成功’地通过了编译检查,但其内在推理过程或最终结论却存在根本性错误。这种‘编译-语义鸿沟’在传统benchmark中往往被忽略,导致我们高估了某些模型的真实能力。

这一系列发现为我们理解后训练优化提供了新的视角。首先,它强调了数据多样性和新颖性的重要性。其次,它警示我们,不能仅仅因为一个模型在某个任务上取得了‘好’的结果,就断定其具备了真正的泛化能力和深度理解。最后,它也提醒开发者,在设计强化学习阶段的提示时,应尽量避免与微调阶段的提示产生过多重合,以鼓励模型进行更具创造性的探索。