从GRPO到SDPO：样本路由机制如何重塑大模型RLHF训练范式

2026-04-02 · 0 次浏览 ·来源: AI导航站

本文深入剖析了强化学习在语言模型后训练中的核心挑战，揭示了Group Relative Policy Optimization (GRPO)与Self-Distillation Policy Optimization (SDPO)各自存在的结构性缺陷。作者提出了一种名为Sample-Routed Policy Optimization (SRPO)的统一框架，通过智能路由机制将正确样本导向GRPO的奖励对齐路径，将失败样本送入SDPO的精粒度修正通道，并引入熵感知的动态加权策略以增强训练稳定性。该方案在多个基准测试和不同规模模型上均展现出卓越性能，不仅继承了SDPO的快速早期提升优势，更克服了其在长周期训练中的不稳定性，同时在计算效率上实现显著优化。

当大语言模型的微调进入深水区，传统的监督微调（SFT）已难以满足日益精细化的能力要求。近年来，基于强化学习的后训练方法，特别是带有可验证奖励的强化学习（RLVR），已成为提升模型推理、事实性和指令遵循等核心能力的关键技术路径。然而，在这一领域，两种主流算法——Group Relative Policy Optimization (GRPO) 和 Self-Distillation Policy Optimization (SDPO)——正面临着各自的瓶颈。

双雄对峙：GRPO与SDPO的优劣之争

GRPO作为OpenAI Sora等技术背后的功臣，其优势在于通过组内相对奖励实现了高效的信用分配，避免了传统PPO算法中复杂的价值函数拟合。它通过对同一提示下的多轮输出进行成对比较，为模型提供清晰的改进方向。然而，这种粗粒度的评估方式也带来了致命弱点：它无法识别具体哪些部分出错，只能笼统地惩罚整个失败的轨迹。这导致模型在纠正特定错误类型时效率低下，尤其在高阶思维任务（如数学证明或复杂推理链）中表现乏力。

相比之下，SDPO则另辟蹊径，它借鉴知识蒸馏的思想，利用模型自身作为‘老师’生成目标logits，从而为每个token提供更密集、更具针对性的监督信号。这种方法确实能在训练初期带来显著的快速提升，因为它能直接指导模型修正每一个错误的token。但问题也随之而来——随着训练的进行，模型逐渐学会模仿自身，导致自我蒸馏的信号质量急剧下降，甚至引发所谓的“模式崩溃”现象，使得长期训练陷入停滞或性能波动。

这两种看似对立的方法，实则代表了强化学习后训练中一个根本性矛盾：是追求宏观层面的整体优化（GRPO），还是微观层面的精确修正（SDPO）？而最新的研究给出了一个令人振奋的答案。

SRPO：让正确与错误各得其所

研究者们发现，问题的症结不在于选择GRPO或SDPO，而在于如何巧妙地结合两者的力量。他们提出了一个革命性的统一框架——Sample-Routed Policy Optimization (SRPO)。SRPO的核心思想极其精妙：它不再是非黑即白的二选一，而是构建了一个动态的智能路由系统。

这个系统的运作逻辑清晰而高效：对于当前策略下生成的、被判定为‘成功’的样本，SRPO会将其引导至GRPO的强化学习轨道。在这里，样本参与组内相对奖励的计算，接受的是宏观层面的全局优化指引。而对于那些被标记为‘失败’的样本，SRPO则会将其送入SDPO的logit-level修正通道。在这里，模型接收到的是针对每一个错误token的精细指导。

这种‘分而治之’的策略，从根本上解决了单一方法的局限性。它确保了模型既能通过GRPO获得长远的、全局性的进步，又能借助SDPO在关键时刻对局部问题进行精准打击。更进一步，为了应对自我蒸馏信号可靠性随时间衰减的问题，SRPO还引入了一项关键的熵感知动态加权机制。该机制能够自动识别那些高置信度、高质量的蒸馏目标，并给予它们更高的权重，同时抑制那些来自模型自身的不确定、不可靠的信号。这不仅有效缓解了后期训练的不稳定性，也提升了整体的训练效率。

超越极限：性能与效率的双重突破

在广泛的实验评估中，SRPO展现出了压倒性的优势。它在五个不同的基准测试和两个不同规模的模型（Qwen3-8B）上进行了验证。结果表明，SRPO不仅成功融合了GRPO的长期稳定性和SDPO的初期爆发力，更在综合性能上超越了这两种基线方法。它在五基准上的平均表现，相比GRPO提升了3.4%，相比SDPO更是提升了6.3%。这意味着，SRPO不仅在理论上取得了重大突破，其实际效果也是立竿见影且显著的。

值得注意的是，性能的飞跃并非以牺牲响应长度为代价。相反，SRPO在保持模型回答简洁性的同时，大幅降低了每步计算的消耗，最高可达17.2%。这一成果对于降低大规模模型训练的经济成本和时间成本具有里程碑式的意义。它表明，未来的RLHF训练可以不再是一个昂贵且耗时的过程，而是一种更高效、更经济的技术迭代方式。