DriveFine：用“自我修正”打破自动驾驶规划模型的僵局

2026-02-16 · 0 次浏览 ·来源: AI导航站

当前自动驾驶领域的视觉-语言-动作（VLA）模型面临两大主流路径的困境：扩散模型虽具生成灵活性，却受限于模态对齐难题与训练低效；而基于token的规划器虽结构清晰，却难逃因果误差累积与解码不可逆的宿命。DriveFine提出了一种融合掩码扩散与自我修正机制的新范式，通过创新的block-MoE架构，在生成专家之上无缝接入精炼专家，实现推理时的显式专家选择与训练时的梯度隔离。结合混合强化学习策略，该模型在NAVSIM与Navhard基准测试中展现出卓越的鲁棒性与泛化能力，为自动驾驶决策系统提供了兼具精确性与适应性的新思路。

自动驾驶系统的核心挑战之一，是如何在复杂多变的现实场景中做出既安全又高效的驾驶决策。近年来，视觉-语言-动作（VLA）模型逐渐成为主流解决方案，它们能够融合环境感知、自然语言指令与车辆控制信号，构建端到端的智能驾驶代理。然而，现有方法在规划层面仍存在显著瓶颈。扩散模型虽能生成多样化的驾驶轨迹，但其训练过程对模态对齐极为敏感，且收敛缓慢；而基于离散token的序列建模方法，尽管训练稳定，却因自回归特性导致误差逐级放大，一旦偏离正确路径便难以回头。

两种范式的困局与互补

扩散模型的优势在于其生成过程的灵活性。它通过逐步去噪的方式构建动作序列，理论上可以覆盖更广阔的行为空间。但问题在于，视觉、语言与动作三种模态之间的对齐机制复杂，训练过程中容易出现模态失配，导致生成的动作与感知输入或语言指令不一致。此外，扩散过程通常需要数十甚至上百步迭代，训练成本高昂，限制了其在资源受限场景下的应用。

相比之下，token-based方法将驾驶动作离散化为一系列可预测的符号，通过自回归方式逐个生成。这种方式训练效率高，结构清晰，但致命缺陷在于其因果链式结构——每一步的预测都依赖于前一步的结果，一旦某一步出错，后续动作将基于错误前提展开，形成“雪崩效应”。更严重的是，这种解码过程不可逆，系统无法在发现错误后回溯修正，导致整体鲁棒性下降。

这两种路径看似对立，实则暴露了当前VLA模型在“生成能力”与“纠错能力”之间的根本矛盾：扩散模型擅长探索，却不擅长修正；token模型擅长执行，却不擅长回溯。而DriveFine的提出，正是为了弥合这一鸿沟。

block-MoE：解耦生成与精炼的专家系统

DriveFine的核心创新在于其提出的block-MoE架构。该设计将模型分为两个独立但协同工作的专家模块：生成专家负责初始动作序列的构建，而精炼专家则专注于对生成结果进行局部优化与错误修正。关键在于，这两个专家在训练和推理阶段实现了完全解耦。

在训练阶段，系统采用梯度阻断机制，确保生成专家的参数更新不会影响精炼专家，反之亦然。这意味着预训练阶段积累的通用驾驶模式与基础动作能力得以完整保留，避免因引入新模块而导致灾难性遗忘。而在推理阶段，系统可根据当前场景的不确定性动态选择是否启用精炼专家，实现计算资源的按需分配。

这种“即插即用”的设计极大提升了模型的扩展性。未来若需引入第三类专家——例如专门处理极端天气或突发障碍物的安全专家——只需在现有架构上叠加，无需重构整个系统。这种模块化思想，正在成为复杂AI系统设计的新趋势。

混合强化学习：在探索与稳定之间走钢丝

为了让精炼专家真正发挥作用，DriveFine采用了一种混合强化学习策略。传统强化学习在自动驾驶中常面临探索不足或训练震荡的问题：过于保守的策略难以发现新行为模式，而过度探索又可能导致策略崩溃。

DriveFine的解决方案是分层奖励设计。生成专家在初期通过模仿学习快速建立基础驾驶能力，随后在强化学习阶段引入精炼专家作为“安全网”。当生成动作出现明显偏差时，精炼专家介入并提供修正建议，系统据此调整策略更新方向。这种机制既鼓励了对高风险高回报行为的探索，又通过即时反馈维持了训练稳定性。

实验结果表明，该策略在NAVSIM v1、v2以及Navhard等主流基准测试中均取得领先性能，尤其在复杂交叉路口、施工区域和突发避障等场景中，表现出更强的适应性与容错能力。

从“生成”到“生成-修正”范式的跃迁

DriveFine的意义不仅在于技术细节的优化，更在于它推动了一种新范式的形成：从单纯的“生成式规划”转向“生成-修正协同规划”。这种思路与人类的驾驶行为高度相似——我们并非一次性做出完美决策，而是在行驶过程中不断观察、评估并微调操作。

当前大多数自动驾驶系统仍停留在“开环规划”阶段，即一旦生成动作序列便严格执行，缺乏实时反馈与调整机制。而DriveFine通过引入显式修正模块，首次实现了闭环式决策流程。这种架构为未来构建更智能、更安全的自动驾驶系统提供了重要参考。

随着传感器精度提升与计算平台演进，未来的VLA模型将不再满足于“能开”，而是追求“开得好、开得稳、开得聪明”。DriveFine所展示的自我修正能力，正是通向这一目标的关键一步。它不仅解决了当前技术的痛点，更开启了对“可进化驾驶智能”的想象空间。