RAD-2：用生成对抗网络重塑自动驾驶决策的未来

2026-04-16 · 0 次浏览 ·来源: AI导航站

在自动驾驶技术从感知向决策跃迁的关键阶段，如何平衡轨迹预测的多样性与安全性，成为制约高阶智能驾驶落地的核心难题。本文介绍了一种名为RAD-2的创新框架，它巧妙融合了扩散模型与强化学习，构建了一个闭环优化的生成-判别器系统。该系统通过引入时间一致性策略优化和BEV-Warp仿真环境，显著提升了复杂城市交通场景下的安全性和舒适性，为下一代自动驾驶规划器的设计提供了新范式。

当一辆L4级自动驾驶汽车在晚高峰的上海街头平稳穿行，避开突然变道的网约车、礼让横穿马路的行人，并提前预判前方施工路段的绕行路线时，它所依赖的并非简单的路径跟随，而是一个能够理解世界、预测未来并做出最优决策的智能体。这个智能体的“大脑”——运动规划器，正站在技术演进的十字路口。

传统的基于模仿学习的规划器，虽然在特定场景下能表现出与人类驾驶者高度相似的行为，但其本质是一种‘复制’而非‘创造’。它们难以应对长尾场景，也无法在动态变化的环境中主动探索更优解。与此同时，近年来兴起的扩散模型（Diffusion Models）在图像生成领域大放异彩，其在轨迹预测上的表现也令人瞩目。它能生成多种可能的未来轨迹，展现出强大的多模态建模能力。然而，这种能力是一把双刃剑——它生成的候选轨迹质量参差不齐，且缺乏有效的反馈机制来修正错误，导致在真实世界中部署时存在潜在风险。

背景：从模仿到创造的范式转变

长期以来，自动驾驶的规划模块主要依赖于行为克隆（Behavioral Cloning）或逆强化学习（Inverse Reinforcement Learning）。这些方法的核心思想是：收集大量人类专家驾驶的数据，然后教会机器模仿。这就像让一个孩子通过观看大师作画来学习绘画。虽然初期效果不错，但一旦遇到训练数据中未曾见过的‘新画布’——即罕见但危险的corner cases，系统往往会束手无策，甚至做出危险决策。

另一方面，以扩散模型为代表的生成式方法，则更像是在教一个孩子如何凭空创作。它不局限于模仿已有画作，而是通过学习世界的底层规律，能够生成前所未有的、富有创意的新作品。在轨迹预测中，这意味着可以同时输出多种合理、安全的驾驶行为。然而，问题在于，这些‘作品’的质量没有统一标准，如何从中筛选出真正优秀的‘杰作’，并将其反馈给生成过程进行改进，就成了一个亟待解决的难题。

核心内容：RAD-2的双引擎架构

为了攻克这一难题，研究者们提出了RAD-2框架，其设计理念极具前瞻性。它不再试图用一个单一的‘超级大脑’去完成所有任务，而是将规划过程分解为两个紧密协作的‘引擎’：一个‘创意工厂’和一个‘质量评审团’。

第一个引擎是**扩散基生成器**。它的任务是扮演‘创意工厂’的角色，基于当前感知到的周围环境，如车道线、障碍物和其他车辆的位置与速度，快速生成大量（数百甚至上千条）潜在的、多样化的未来轨迹。这些轨迹不仅包括了最可能发生的情况（比如前方车辆缓慢减速），还包括了各种低概率但高影响的事件（比如前车突然急刹）。这种多样性是应对开放世界不确定性的关键。

第二个引擎是**RL优化的判别器**。它扮演着‘质量评审团’的角色。生成器输出的海量轨迹对于强化学习（RL）而言是巨大的挑战——直接在高维度的轨迹空间上应用稀疏的奖励信号（如碰撞惩罚）会导致优化极其不稳定，甚至完全失败。RAD-2的解决方案是‘分而治之’：判别器首先根据每条轨迹在长期行驶中的综合表现（如是否安全、是否舒适、是否高效）进行排序和打分。这个过程将原本模糊、高维的奖励，转化为一条清晰、可量化的评分曲线。随后，生成器只需专注于模仿这条‘高分轨迹流形’，而不是盲目地在整个空间中探索。这种解耦设计极大地提高了强化学习的稳定性和效率。

这种‘生成-筛选’的迭代循环，完美地模拟了人类学习和决策的过程：先广泛探索，再聚焦于最有希望的选项进行深化。

深度点评：技术融合的创新价值

RAD-2的意义远不止于解决了一个具体的技术难题。它代表了一种深刻的范式转变：从追求单一模型的‘万能性’，转向利用多个专用模型的优势互补。它证明了将生成式AI的强大创造力与强化学习的强大决策力相结合，是通向真正高级别自动驾驶的必经之路。

其最大的创新点在于，它将强化学习从‘黑箱试错’的困境中解放了出来。传统端到端的RL方案，其奖励函数的设计异常困难，且容易陷入局部最优。而RAD-2通过判别器，巧妙地提供了一个结构化的、由数据驱动的监督信号，让生成器可以更高效地学习。同时，它也为生成式模型引入了至关重要的‘反馈闭环’，解决了纯模仿学习无法自我进化的根本缺陷。

此外，Temporally Consistent Group Relative Policy Optimization (TC-GRPO) 和时间一致的奖励塑造策略，有效缓解了强化学习中长期存在的信用分配问题。而On-policy Generator Optimization则更进一步，将闭环反馈转化为对生成器内部参数的精细调整，使得整个系统能够像一个有机体一样持续进化。

前瞻展望：开启自动驾驶的新纪元

技术的突破最终需要落地验证。RAD-2在仿真环境和真实路测中均取得了令人鼓舞的成果，碰撞率降低了56%，并在复杂的城区道路中实现了更高的安全感和驾驶平顺性。这表明其设计的有效性。

展望未来，RAD-2这类生成-判别器架构有望成为下一代自动驾驶系统的标准配置。它不仅适用于运动规划，其核心思想——即用一个生成器探索可能性，再用一个判别器评估价值——可以被广泛应用于其他AI子领域，如机器人控制、游戏AI乃至更广泛的决策制定任务。随着仿真技术（如BEV-Warp）的进一步发展，我们有望看到更多像RAD-2这样，能够在虚拟环境中完成‘预训练’和‘微调’的通用型智能体，最终无缝衔接至物理世界，开启一个由AI全面赋能的移动出行新时代。