CRAFT: Counterfactual-to-Interactive Reinforcement Fine-Tuning for Driving Policies

📄 arXiv: 2605.04470v1 📥 PDF

作者: Keyu Chen, Nanfei Ye, Yida Wang, Wenchao Sun, Danqi Zhao, Hao Cheng, Sifa Zheng

分类: cs.LG, cs.RO

发布日期: 2026-05-06

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

CRAFT:用于自动驾驶策略的反事实到交互式强化微调

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 强化学习 反事实推理 闭环控制 策略优化

📋 核心要点

  1. 现有闭环强化学习微调受限于信息事件的稀疏性,而反事实微调则存在由不完善的未来估计引入的偏差。
  2. CRAFT通过代理残差优化,利用反事实优势作为密集代理,并通过交互关键事件的残差校正与真实闭环世界对齐。
  3. CRAFT在Bench2Drive上取得了显著的闭环性能提升,并在分层规划、视觉-语言-动作等多种架构上验证了其有效性。

📝 摘要(中文)

开放循环模仿学习推动了现代自动驾驶策略架构的发展,但闭环部署仍然容易受到策略诱导的分布偏移的影响。现有的后训练范例表现出根本性的权衡:闭环强化学习微调提供了来自已执行动作的实际反馈,但受到信息事件稀疏性的限制,而反事实微调提供了对候选未来的密集监督,但继承了来自不完善的未来估计的偏差。我们引入了反事实到交互式强化微调(CRAFT),这是一种在线框架,它将闭环后训练公式化为代理残差优化。CRAFT使用组归一化的反事实优势作为真实闭环优势的密集代理,并通过来自交互关键事件的实际残差校正将该代理与闭环世界对齐。为了稳定适应,CRAFT通过非对称KL自蒸馏将在线策略正则化为EMA教师。从理论上讲,CRAFT将真实的闭环策略梯度分解为相同访问状态分布下的代理项和残差项,通过对齐的代理减少残差方差,同时通过实际残差近似来减轻代理偏差。在经验上,CRAFT在Bench2Drive上实现了最强的闭环增益,涵盖了分层规划、视觉-语言-动作和词汇评分架构。消融研究、缩放行为、稳定性分析和迁移结果进一步验证了密集反事实代理和实际残差校正的互补作用。

🔬 方法详解

问题定义:自动驾驶策略在开放循环模仿学习中取得了进展,但部署到闭环环境时,由于策略引起的分布偏移,性能会显著下降。现有的闭环强化学习微调方法受限于信息事件的稀疏性,导致学习效率低下。反事实微调虽然可以提供密集的监督信号,但依赖于不完美的未来预测,从而引入偏差。

核心思路:CRAFT的核心思想是将闭环后训练过程视为一个代理残差优化问题。它利用反事实优势函数作为真实闭环优势函数的密集代理,并通过实际交互中获得的残差信息来校正代理的偏差。这种方法结合了反事实微调的密集监督和闭环强化学习的实际反馈,从而实现更有效的策略优化。

技术框架:CRAFT是一个在线强化学习框架,包含以下主要模块:1) 反事实优势估计模块:利用环境模型或历史数据估计反事实优势函数,作为策略优化的密集代理信号。2) 交互式残差校正模块:通过与环境的实际交互,收集关键事件(例如,碰撞、偏离车道)的反馈,计算残差信号,用于校正反事实优势函数的偏差。3) 策略优化模块:使用代理优势函数和残差信号,更新自动驾驶策略。4) 非对称KL散度自蒸馏:使用EMA教师模型,通过非对称KL散度正则化在线策略,稳定训练过程。

关键创新:CRAFT的关键创新在于将反事实优势函数作为真实闭环优势函数的代理,并通过实际交互获得的残差信息来校正代理的偏差。这种方法有效地结合了反事实微调的密集监督和闭环强化学习的实际反馈,克服了现有方法的局限性。此外,使用非对称KL散度自蒸馏进一步稳定了训练过程。

关键设计:CRAFT使用组归一化来处理反事实优势函数,以提高其鲁棒性。残差校正模块关注交互关键事件,以提高样本效率。非对称KL散度自蒸馏使用EMA教师模型,并采用非对称的KL散度损失函数,以避免策略崩溃。具体的损失函数包括代理损失、残差损失和KL散度损失,通过加权求和进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CRAFT在Bench2Drive基准测试中取得了显著的性能提升,超过了现有的闭环强化学习和反事实微调方法。实验结果表明,CRAFT在分层规划、视觉-语言-动作和词汇评分等多种自动驾驶架构上均能有效提升闭环性能。消融实验验证了反事实代理和残差校正的互补作用,以及非对称KL散度自蒸馏的有效性。此外,CRAFT还展现出良好的可扩展性和迁移能力。

🎯 应用场景

CRAFT具有广泛的应用前景,可用于提升各种自动驾驶系统的闭环性能,包括分层规划、视觉-语言-动作和词汇评分架构。该方法还可以应用于其他需要从离线数据中学习并在实际环境中进行微调的机器人任务,例如导航、操作和人机协作。CRAFT的实际价值在于提高自动驾驶系统的安全性和可靠性,并降低开发和部署成本。

📄 摘要(原文)

Open-loop imitation learning has advanced modern autonomous driving policy architectures, but closed-loop deployment remains vulnerable to policy-induced distribution shift. Existing post-training paradigms exhibit fundamental trade-offs: closed-loop RL fine-tuning provides grounded feedback from executed actions but is constrained by the sparsity of informative events, whereas counterfactual fine-tuning provides dense supervision over candidate futures but inherits bias from imperfect future estimates. We introduce Counterfactual-to-Interactive Reinforcement Fine-Tuning (CRAFT), an on-policy framework that formulates closed-loop post-training as proxy-residual optimization. CRAFT uses group-normalized counterfactual advantages as a dense proxy for real closed-loop advantages and aligns this proxy with the closed-loop world through grounded residual correction from interaction-critical events. To stabilize adaptation, CRAFT regularizes the online policy toward an EMA teacher via asymmetric KL self-distillation. Theoretically, CRAFT decomposes the real closed-loop policy gradient into proxy and residual terms under the same visited-state distribution, reducing residual variance with an aligned proxy while mitigating proxy bias through grounded residual approximation. Empirically, CRAFT achieves the strongest closed-loop gains on Bench2Drive across hierarchical planning, vision-language-action, and vocabulary-scoring architectures. Ablations, scaling behavior, stability analyses, and transfer results further validate the complementary roles of dense counterfactual proxy and grounded residual correction. Project page: https://currychen77.github.io/CRAFT.