JURY-RL：当投票成为法官，LLM推理如何避免‘伪共识’陷阱

2026-04-28 · 0 次浏览 ·来源: AI导航站

在强化学习驱动的大模型训练中，可验证奖励（RLVR）是关键突破口，但传统方法依赖人工标注，成本高昂。为解决这一瓶颈，研究者提出JURY-RL框架——一个无需标签的自动化奖励机制。其核心创新在于将‘答案生成’与‘奖励判定’解耦：由模型自身 rollout 生成候选答案，再由形式化验证器（如 Lean）判断是否给予正反馈；若无法确认，则启用 ResZero 机制，对未验证结果施加零均值、方差保留的惩罚信号，从而稳定优化梯度，避免错误共识被强化。实验表明，JURY-RL 在数学推理任务上媲美监督学习效果，并展现出更强的泛化能力与响应多样性。这项技术不仅降低了训练门槛，也为构建更可靠、自洽的AI系统提供了新路径。

大语言模型（LLMs）正以前所未有的速度重塑人工智能领域，而其中一项关键技术——基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）——正悄然推动模型推理能力的跃迁。然而，当前主流的RLVR方法往往依赖于人类专家对输出进行评分，或需要精心设计奖励函数，这不仅推高了训练成本，也限制了模型的自主进化潜力。

面对这一困境，一支研究团队提出了一种名为JURY-RL的创新框架。该系统的设计哲学极具启发性：它不追求完美的答案，而是建立一套动态的信任机制。具体而言，JURY-RL首先让多个模型实例（rollouts）独立生成同一个问题的候选解答，并通过多数投票选出最可能的“共识答案”。随后，一个外部的形式化验证工具（例如Lean数学证明器）会严格检验这个候选答案是否逻辑自洽且正确无误。只有通过验证的答案才会获得正向奖励，而未经验证的结果则不会受到鼓励。

这看似简单的两步流程背后却蕴含着深刻的工程智慧。最关键的设计在于如何处理验证失败的情况。传统的‘多数决’策略一旦遭遇争议，就可能将错误共识固化为模型的知识。JURY-RL引入了ResZero机制作为安全网：当验证结果模棱两可时，系统不会简单地给所有选项零分，而是对未被采纳的剩余答案施加一个零均值、但保持原有方差的随机扰动信号。这意味着即使没有正确答案，模型也不会停止学习——它依然能从其他尝试中获得信息，只是方向被谨慎地模糊化了。这种策略巧妙地在探索与利用之间找到了平衡点。

打破数据依赖：从标注密集型向自我监督演进

长期以来，大模型预训练范式始终绕不开海量高质量标注数据这道坎儿。无论是经典的监督微调阶段，还是近年来热门的指令对齐训练，都离不开人类标注员的辛勤付出。这种模式不仅成本高昂，还难以规模化，尤其是在数学推导、程序验证等专业领域，找到足够多的高水平标注者本身就是个难题。

JURY-RL的出现标志着一种根本性转变：从依赖外部知识注入转向构建内在可信度评估体系。正如作者所指出的，该框架的关键优势在于完全剥离了人工标注需求。模型不再需要等待人类专家为其每一次输出打分，而是通过自身的群体智能和外部形式化验证共同构建起一套动态更新的可信标准。这种机制特别适用于那些具有明确逻辑结构的问题空间——比如数学定理证明或代码功能验证，在这些领域中，机器本身就能胜任相当一部分评判工作。

更进一步看，JURY-RL实际上构建了一个闭环的自我完善系统。随着模型能力提升，其生成的候选答案质量不断提高，验证成功率也随之上升；反过来，更高的验证率又进一步激励模型产出更优解。这个过程类似于科学发现中的同行评议制度，只不过这里的‘评审员’是数学公理系统和编程语义规则。

性能表现：媲美监督学习的突破与局限

在三个不同规模的骨干网络上进行的实验充分展示了JURY-RL的有效性。在标准的数学推理基准测试中，采用JURY-RL训练的模型不仅在单次尝试准确率（pass@1）上达到了接近传统监督微调的水平，而且在多次采样下的整体成功率（pass@k）以及答案多样性方面表现出显著优势。这表明该方法不仅能学到正确的解题路径，还能保持足够的探索自由度以应对复杂问题。

更令人振奋的是其跨任务迁移能力。研究人员观察到，经过JURY-RL优化的模型在面对代码生成和其他通用认知挑战时也展现出良好的适应性。这说明该方法培养出的不仅是特定领域的解题技巧，更是普适性的逻辑推理能力和问题拆解思维。

然而也必须清醒认识到当前存在的局限。首先，形式化验证工具的覆盖范围仍然有限，目前主要局限于Lean等支持特定逻辑体系的系统；其次，对于开放性较强、缺乏明确定义答案的问题类型（如创意写作或多轮对话），JURY-RL的优势尚未得到验证；最后，尽管去除了显式标注环节，但该框架仍隐含了对模型初始能力的要求——毕竟要让一群LLM达成共识的前提是它们已经具备基本的相关知识储备。

未来展望：迈向可信自主的智能体

JURY-RL的意义远不止于提升某个特定任务的准确率曲线。它所代表的方向——利用机器内在能力构建自我监督机制——或将引领下一代AI系统的发展方向。想象这样一个场景：未来的智能体不再需要人类设定固定目标函数，而是通过与环境的交互不断建立自己的价值坐标系；它们能够自主识别哪些行为值得强化、哪些需要修正，并在没有外部指导的情况下持续进化。

当然，这条路还很长。如何扩展验证工具的适用边界？怎样处理高维连续动作空间中的验证难题？这些都是亟待解决的技术挑战。但可以肯定的是，像JURY-RL这样将群体智能、形式化方法和稳健优化相结合的思路，正在打开一扇通往更安全、更可控人工智能的大门。

随着更多研究者投身于这个方向，我们或许很快就能看到真正意义上无需人为干预即可自我完善的智能系统诞生。届时，人工智能的发展节奏将不再受制于人类标注资源的供给速度，而将由机器自身的学习能力主导——而这，正是JURY-RL带给我们的最大启示。