RAD-2:用生成对抗网络重塑自动驾驶决策的未来
当一辆L4级自动驾驶汽车在晚高峰的上海街头平稳穿行,避开突然变道的网约车、礼让横穿马路的行人,并提前预判前方施工路段的绕行路线时,它所依赖的并非简单的路径跟随,而是一个能够理解世界、预测未来并做出最优决策的智能体。这个智能体的“大脑”——运动规划器,正站在技术演进的十字路口。
传统的基于模仿学习的规划器,虽然在特定场景下能表现出与人类驾驶者高度相似的行为,但其本质是一种‘复制’而非‘创造’。它们难以应对长尾场景,也无法在动态变化的环境中主动探索更优解。与此同时,近年来兴起的扩散模型(Diffusion Models)在图像生成领域大放异彩,其在轨迹预测上的表现也令人瞩目。它能生成多种可能的未来轨迹,展现出强大的多模态建模能力。然而,这种能力是一把双刃剑——它生成的候选轨迹质量参差不齐,且缺乏有效的反馈机制来修正错误,导致在真实世界中部署时存在潜在风险。
背景:从模仿到创造的范式转变
长期以来,自动驾驶的规划模块主要依赖于行为克隆(Behavioral Cloning)或逆强化学习(Inverse Reinforcement Learning)。这些方法的核心思想是:收集大量人类专家驾驶的数据,然后教会机器模仿。这就像让一个孩子通过观看大师作画来学习绘画。虽然初期效果不错,但一旦遇到训练数据中未曾见过的‘新画布’——即罕见但危险的corner cases,系统往往会束手无策,甚至做出危险决策。
另一方面,以扩散模型为代表的生成式方法,则更像是在教一个孩子如何凭空创作。它不局限于模仿已有画作,而是通过学习世界的底层规律,能够生成前所未有的、富有创意的新作品。在轨迹预测中,这意味着可以同时输出多种合理、安全的驾驶行为。然而,问题在于,这些‘作品’的质量没有统一标准,如何从中筛选出真正优秀的‘杰作’,并将其反馈给生成过程进行改进,就成了一个亟待解决的难题。
核心内容:RAD-2的双引擎架构
为了攻克这一难题,研究者们提出了RAD-2框架,其设计理念极具前瞻性。它不再试图用一个单一的‘超级大脑’去完成所有任务,而是将规划过程分解为两个紧密协作的‘引擎’:一个‘创意工厂’和一个‘质量评审团’。
第一个引擎是**扩散基生成器**。它的任务是扮演‘创意工厂’的角色,基于当前感知到的周围环境,如车道线、障碍物和其他车辆的位置与速度,快速生成大量(数百甚至上千条)潜在的、多样化的未来轨迹。这些轨迹不仅包括了最可能发生的情况(比如前方车辆缓慢减速),还包括了各种低概率但高影响的事件(比如前车突然急刹)。这种多样性是应对开放世界不确定性的关键。
第二个引擎是**RL优化的判别器**。它扮演着‘质量评审团’的角色。生成器输出的海量轨迹对于强化学习(RL)而言是巨大的挑战——直接在高维度的轨迹空间上应用稀疏的奖励信号(如碰撞惩罚)会导致优化极其不稳定,甚至完全失败。RAD-2的解决方案是‘分而治之’:判别器首先根据每条轨迹在长期行驶中的综合表现(如是否安全、是否舒适、是否高效)进行排序和打分。这个过程将原本模糊、高维的奖励,转化为一条清晰、可量化的评分曲线。随后,生成器只需专注于模仿这条‘高分轨迹流形’,而不是盲目地在整个空间中探索。这种解耦设计极大地提高了强化学习的稳定性和效率。
这种‘生成-筛选’的迭代循环,完美地模拟了人类学习和决策的过程:先广泛探索,再聚焦于最有希望的选项进行深化。
深度点评:技术融合的创新价值
RAD-2的意义远不止于解决了一个具体的技术难题。它代表了一种深刻的范式转变:从追求单一模型的‘万能性’,转向利用多个专用模型的优势互补。它证明了将生成式AI的强大创造力与强化学习的强大决策力相结合,是通向真正高级别自动驾驶的必经之路。
其最大的创新点在于,它将强化学习从‘黑箱试错’的困境中解放了出来。传统端到端的RL方案,其奖励函数的设计异常困难,且容易陷入局部最优。而RAD-2通过判别器,巧妙地提供了一个结构化的、由数据驱动的监督信号,让生成器可以更高效地学习。同时,它也为生成式模型引入了至关重要的‘反馈闭环’,解决了纯模仿学习无法自我进化的根本缺陷。
此外,Temporally Consistent Group Relative Policy Optimization (TC-GRPO) 和时间一致的奖励塑造策略,有效缓解了强化学习中长期存在的信用分配问题。而On-policy Generator Optimization则更进一步,将闭环反馈转化为对生成器内部参数的精细调整,使得整个系统能够像一个有机体一样持续进化。
前瞻展望:开启自动驾驶的新纪元
技术的突破最终需要落地验证。RAD-2在仿真环境和真实路测中均取得了令人鼓舞的成果,碰撞率降低了56%,并在复杂的城区道路中实现了更高的安全感和驾驶平顺性。这表明其设计的有效性。
展望未来,RAD-2这类生成-判别器架构有望成为下一代自动驾驶系统的标准配置。它不仅适用于运动规划,其核心思想——即用一个生成器探索可能性,再用一个判别器评估价值——可以被广泛应用于其他AI子领域,如机器人控制、游戏AI乃至更广泛的决策制定任务。随着仿真技术(如BEV-Warp)的进一步发展,我们有望看到更多像RAD-2这样,能够在虚拟环境中完成‘预训练’和‘微调’的通用型智能体,最终无缝衔接至物理世界,开启一个由AI全面赋能的移动出行新时代。