揭开强化学习中的‘因果性’面纱：从全轨迹回报到奖励-to-go的严谨推导

2026-04-06 · 8 次浏览 ·来源: AI导航站

在深度强化学习的政策梯度方法中，REINFORCE算法的经典推导通常采用全轨迹回报，再通过‘因果性’这一直观但常显模糊的理由，将全回报替换为更高效的奖励-to-go。本文深入剖析了这一关键步骤，通过前缀轨迹分布与得分函数恒等式的数学框架，首次给出了一个清晰、自洽且无需额外启发式假设的推导路径。文章揭示，奖励-to-go并非事后引入的近似手段，而是对目标函数进行前缀分解时自然涌现的结果。这一重构不仅提升了理论透明度，更为理解策略梯度方法的核心机制提供了新的视角。

在深度强化学习的浪潮中，基于策略梯度的算法，如REINFORCE及其各种改进版本，已成为构建智能体决策能力的重要基石。这些算法的核心思想是，通过对策略函数的参数进行梯度上升，来最大化期望累积奖励。然而，在其经典的教学和推导中，一个看似简单却常常令人困惑的步骤始终存在——即如何将全轨迹回报（full return）无缝过渡到奖励-to-go（reward-to-go），并冠之以“因果性”这一略显模糊的理由。

传统的教学路径通常是这样的：首先，我们定义一个完整的轨迹（trajectory），它包含了状态、动作和对应奖励的完整序列。然后，我们利用全轨迹的总奖励来计算策略梯度，并通过蒙特卡洛采样得到一个无偏的估计器，即REINFORCE算法。接下来，为了减少方差并提高学习效率，我们被告知：根据马尔可夫性质，未来的奖励只依赖于当前的状态，而与过去的奖励无关。因此，我们可以将全轨迹回报中的历史奖励项剔除，只保留从当前时刻开始到结束的未来奖励之和，这就是奖励-to-go。这个过程被标记为“因果性”的应用，仿佛它是一个附加的规则或启发式原则。

尽管这个结论是正确的，但这种呈现方式往往缺乏足够的数学严谨性和内在逻辑的连贯性。读者可能会疑惑，那些过去奖励项是如何在推导中消失的？它们真的只是被‘因果’地忽略了吗？这种表述方式容易让人感觉奖励-to-go是一个事后引入的、旨在优化性能的替代方案，而非理论推导的自然产物。

正是为了解决这个问题，本文提出了一种全新的、更加严谨和透明的推导框架。我们的核心贡献在于，不再将奖励-to-go视为一种需要额外证明的‘替换’，而是将其视为对原始目标函数进行重新分解时自然而然产生的结果。

为了实现这一目标，我们引入了前缀轨迹（prefix trajectory）的概念。一个前缀轨迹指的是从初始状态到任意中间状态的完整历史记录。通过这种方式，我们将原始的、单一的完整轨迹分解成了一系列相互关联的前缀轨迹。对于每一个这样的前缀，我们都可以定义一个对应的奖励-to-go，即从该前缀的末尾状态到最终状态的累积奖励。

在这一框架下，我们重新审视了策略梯度的计算过程。关键在于，我们不再直接对完整轨迹的回报求梯度，而是转而考虑每个前缀轨迹对整体期望回报的贡献。通过对目标函数进行这种前缀分解，并结合得分函数（score function）恒等式这一强大的数学工具，我们可以精确地追踪每个历史奖励项在梯度计算中的作用。最终，我们会发现，那些属于过去奖励的项会在数学运算中相互抵消，而剩下的，正是我们从当前状态开始计算的奖励-to-go。

这一推导过程彻底改变了我们对“因果性”的理解。它不再是外加的一个规则，而是整个数学推导过程的直接推论。当我们按照前缀轨迹的顺序对目标函数进行分解时，未来的奖励只与当前及之后的状态相关，而与过去的状态无关，这正是马尔可夫性质的体现，也是因果关系在概率模型中的具体表现。因此，奖励-to-go的出现，是水到渠成的结果，而非人为的裁剪。

这种重构带来的最大优势是理论上的清晰性和一致性。它消除了传统教学中可能存在的逻辑跳跃，让读者能够清晰地看到从全轨迹回报到奖励-to-go的转变是如何在数学上发生的。这不仅有助于初学者更好地理解强化学习的核心原理，也为高级研究人员提供了一个更加严谨的理论基础，使他们能够在复杂的策略梯度变体中进行更深入的分析和推导。

展望未来，这种基于前缀轨迹和得分函数恒等式的框架，有望成为理解和分析各种复杂强化学习算法的通用语言。它提供了一种系统性的方法来处理策略梯度中的时序依赖性和因果结构，从而可能催生更多高效、稳定且具有更强理论保障的新型学习算法。随着强化学习技术不断向更复杂的任务和环境拓展，这种对基本原理的深刻理解和严谨表达，将成为推动领域向前发展的关键动力。