Learning Personalized Driving Styles via Reinforcement Learning from Human Feedback

📄 arXiv: 2503.10434v2 📥 PDF

作者: Derun Li, Changye Li, Yue Wang, Jianwei Ren, Xin Wen, Pengxiang Li, Leimeng Xu, Kun Zhan, Peng Jia, Xianpeng Lang, Ningyi Xu, Hang Zhao

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-03-13 (更新: 2025-09-26)

备注: 20 pages, 6 figures


💡 一句话要点

提出TrajHF框架,通过人类反馈强化学习学习个性化驾驶风格。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 轨迹生成 强化学习 人类反馈 个性化驾驶 多模态轨迹 运动规划

📋 核心要点

  1. 现有生成模型难以捕捉个性化驾驶风格的细微差别,主要由于数据集偏差和分布偏移。
  2. TrajHF通过人类反馈驱动的强化学习微调生成式轨迹模型,对齐运动规划与多样化驾驶风格。
  3. TrajHF在NavSim基准测试中取得了与当前最佳方法相当的性能,验证了其有效性。

📝 摘要(中文)

本文提出了一种基于人类反馈的微调框架TrajHF,用于生成式轨迹模型,旨在使运动规划与多样化的驾驶风格对齐。TrajHF结合了多条件去噪器和基于人类反馈的强化学习,以改进多模态轨迹生成,超越了传统的模仿学习。这使得模型能够更好地与人类驾驶偏好对齐,同时保持安全性和可行性约束。实验结果表明,TrajHF在NavSim基准测试中达到了与最先进水平相当的性能。TrajHF为自动驾驶中个性化和自适应轨迹生成设定了新的范例。

🔬 方法详解

问题定义:自动驾驶中的轨迹生成任务旨在生成安全、可行且类人的轨迹。然而,现有的生成模型往往难以捕捉不同驾驶员的个性化驾驶风格,导致生成的轨迹不够自然和适应性不足。数据集的偏差和分布偏移是主要挑战。

核心思路:TrajHF的核心思路是利用人类反馈来指导轨迹生成模型的学习过程。通过强化学习,模型可以根据人类的偏好调整其行为,从而生成更符合个性化驾驶风格的轨迹。这种方法超越了传统的模仿学习,后者仅仅依赖于数据集中的驾驶行为。

技术框架:TrajHF框架包含以下主要模块:1) 多条件去噪器:用于生成多模态的候选轨迹。2) 强化学习模块:使用人类反馈作为奖励信号,优化轨迹生成策略。3) 安全性和可行性约束:确保生成的轨迹满足基本的驾驶安全要求。整体流程是,首先使用多条件去噪器生成多个候选轨迹,然后通过强化学习模块根据人类反馈选择和优化轨迹,最后通过约束条件过滤掉不安全或不可行的轨迹。

关键创新:TrajHF的关键创新在于将人类反馈引入到轨迹生成模型的训练过程中。传统的模仿学习方法只能学习数据集中的驾驶行为,而TrajHF可以通过人类的直接反馈来学习更细微的驾驶风格差异。这种方法可以有效地解决数据集偏差和分布偏移的问题。

关键设计:TrajHF使用多条件去噪器来生成多模态的候选轨迹,允许模型探索不同的驾驶策略。强化学习模块使用Proximal Policy Optimization (PPO)算法,并结合人类反馈作为奖励信号。安全性和可行性约束通过惩罚函数来实现,确保生成的轨迹满足基本的驾驶安全要求。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TrajHF在NavSim基准测试中取得了与当前最先进水平相当的性能。实验结果表明,TrajHF能够生成更符合人类驾驶偏好的轨迹,并且能够有效地适应不同的驾驶场景。与传统的模仿学习方法相比,TrajHF在个性化驾驶风格的学习方面具有显著优势。

🎯 应用场景

TrajHF框架可应用于自动驾驶汽车,使其能够学习和适应不同驾驶员的个性化驾驶风格。这可以提高驾驶体验的舒适性和安全性,并增强用户对自动驾驶系统的信任感。此外,该框架还可以用于训练自动驾驶模拟器,生成更真实和多样化的驾驶场景。

📄 摘要(原文)

Generating human-like and adaptive trajectories is essential for autonomous driving in dynamic environments. While generative models have shown promise in synthesizing feasible trajectories, they often fail to capture the nuanced variability of personalized driving styles due to dataset biases and distributional shifts. To address this, we introduce TrajHF, a human feedback-driven finetuning framework for generative trajectory models, designed to align motion planning with diverse driving styles. TrajHF incorporates multi-conditional denoiser and reinforcement learning with human feedback to refine multi-modal trajectory generation beyond conventional imitation learning. This enables better alignment with human driving preferences while maintaining safety and feasibility constraints. TrajHF achieves performance comparable to the state-of-the-art on NavSim benchmark. TrajHF sets a new paradigm for personalized and adaptable trajectory generation in autonomous driving.