当强化学习撞上概率真相：CMU团队撕开“近似最优”的伪装

2026-02-05 · 1 次浏览 ·来源: AI导航站

强化学习长期被视为大模型通向自主智能的关键路径，尤其在代码生成、数学推理和Agent系统中扮演着“最后一公里”的角色。然而，CMU、清华大学与浙江大学等机构的一项最新研究揭示了令人意外的真相：当前广泛使用的强化学习方法，并未真正实现开发者期望的“最大化正确轨迹概率”这一目标，而只是在优化其粗略的一阶近似。研究团队由此提出最大似然强化学习（MLRL），将强化学习重新建模为潜变量生成问题，并构建可逐步逼近真实最大似然目标的可计算函数族。这一发现不仅挑战了现有范式，更指向一条通往更高效、更可靠智能体训练的新路径。

在人工智能迈向自主决策的进程中，强化学习（Reinforcement Learning）长期占据着核心地位。从大模型生成代码时的自我修正，到解决复杂数学问题的逐步推理，再到构建能独立执行任务的智能体（Agent），强化学习几乎成了打通能力落地的标配工具。开发者普遍相信，通过奖励机制引导模型不断尝试、反馈与优化，最终能让系统更倾向于产生“正确”的行为序列——这听起来像是一个自然的概率优化过程：让正确轨迹出现的可能性最大化。

然而，这一看似合理的直觉，正在被一项来自顶尖学术机构的研究彻底颠覆。研究团队通过严格的数学分析指出，当前主流的强化学习方法，实际上并未在真正意义上优化“最大似然”目标。它们所做的，只是对这个理想目标的一阶近似。换句话说，我们长期以来依赖的强化学习框架，可能一直在一条“足够好但非最优”的路径上徘徊，而真正的概率最优解，其实还远未触及。

被误解的“最优”：强化学习的理论盲区

最大似然估计是统计学习中最基础、最直观的原则之一：给定一组观测数据，寻找最可能生成这些数据的模型参数。在强化学习的语境下，这意味着我们应最大化模型生成“正确行为轨迹”的概率。例如，在代码生成任务中，若某段代码通过了所有测试用例，那么模型应被训练得更有可能生成类似结构的输出。

但现实中的强化学习算法，如策略梯度（Policy Gradient）或近端策略优化（PPO），其优化目标并非直接最大化这一概率。它们通过奖励信号调整策略，本质上是在逼近一个局部梯度方向，而这个方向仅对应于最大似然目标的一阶泰勒展开。这种近似在低维、简单任务中或许有效，但在高维、稀疏奖励的复杂场景中，其局限性日益凸显：模型可能陷入局部最优，或过度拟合特定奖励模式，而忽略了更根本的概率结构。

重新定义目标：从近似到真实似然

面对这一理论鸿沟，研究团队提出了一种全新的框架——最大似然强化学习（Maximum Likelihood Reinforcement Learning, MLRL）。其核心思想是将强化学习问题重新建模为一个潜变量生成模型。在这个视角下，智能体的行为轨迹被视为由一组潜在变量（如意图、规划路径或中间推理步骤）所生成，而强化学习的目标不再是简单地拟合奖励信号，而是恢复这些潜变量的真实分布，从而直接最大化正确轨迹的生成概率。

为了实现这一目标，团队引入了一族以计算资源为索引的目标函数。这些函数在计算复杂度上逐步递增，从最初的简单近似出发，逐步逼近真实最大似然目标。这种“渐进式优化”策略不仅提升了理论严谨性，也为实际训练提供了灵活性：在资源有限时可使用低阶近似，而在追求极致性能时则可启用高阶逼近。

行业影响：从“够用就好”到“逼近本质”

这一发现的意义远超理论层面。当前大模型训练中，强化学习常被用于对齐人类偏好或提升任务完成率，但其不稳定性、样本效率低和奖励黑客（reward hacking）等问题屡见不鲜。根本原因之一，正是目标函数与真实优化意图之间的错位。MLRL框架的出现，为这些问题提供了新的解决思路。

例如，在代码生成领域，传统方法可能因奖励稀疏而难以有效学习。而MLRL通过建模潜变量（如程序逻辑结构），可使模型更系统地探索“正确”的代码空间，而非仅仅依赖测试用例的通过与否。在数学推理中，它有助于捕捉中间步骤的合理性，避免因最终答案错误而全盘否定一条接近正确的推理路径。

更重要的是，这一框架为“可解释性”打开了新窗口。潜变量模型天然具备结构化表示能力，使得我们不仅能评估模型是否“做对了”，还能理解它“为何这样想”。这对于构建可信、可审计的AI系统至关重要。

未来之路：逼近概率真相的阶梯

尽管MLRL仍处于早期阶段，但其所揭示的理论差距已足以引发范式反思。未来的强化学习研究，或许不应再满足于“有效但近似”的算法，而应致力于构建更接近概率本质的优化目标。随着计算资源的持续增长和生成模型理论的深化，我们有望看到更多基于真实似然框架的算法涌现。

这场从“一阶近似”到“最大似然”的跃迁，不仅是技术上的精进，更是对智能本质的一次逼近。当AI系统开始真正理解“什么是更可能正确的”，而非仅仅“什么是被奖励的”，我们或许才真正迈出了通向通用智能的关键一步。