Accelerating the Evolution of Personalized Automated Lane Change through Lesson Learning

📄 arXiv: 2405.07543v2 📥 PDF

作者: Jia Hu, Mingyue Lei, Haoran Wang, Zeyu Liu, Fan Yang

分类: cs.LG, cs.RO

发布日期: 2024-05-13 (更新: 2025-05-30)

DOI: 10.1109/TITS.2025.3576387


💡 一句话要点

提出基于Lesson Learning的个性化自动变道进化方法,解决在线学习计算量大问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 自动变道 个性化 Lesson Learning 学徒学习 模型预测控制

📋 核心要点

  1. 传统自动变道进化方法依赖大量自然驾驶数据,计算负担重,难以满足在线个性化需求。
  2. 提出Lesson Learning框架,从驾驶员接管行为中学习,通过优化奖励函数实现快速个性化。
  3. 仿真结果表明,该方法能有效进行个性化定制,进化效率提升24%,平均学习迭代次数仅13.8次。

📝 摘要(中文)

为了实现高级驾驶辅助系统的广泛应用,个性化至关重要,而在线进化能力是必须的。传统进化方法从自然驾驶数据中学习,计算量大,无法在线应用。本文提出了一种lesson learning方法,从驾驶员的接管干预中学习。利用在线接管数据,使用高斯判别分析生成驾驶区域以确保感知安全。通过学徒学习实现对轨迹规划奖励的实时校正。该方法以优化驾驶区域约束内的奖励为目标,采用模型预测控制进行轨迹规划。该lesson learning框架具有更快的进化能力、经验积累能力、感知安全保证和计算效率。仿真结果表明,该系统始终能够成功定制,无需进一步的接管干预。经验积累使进化效率提高了24%。平均学习迭代次数仅为13.8次,平均计算时间为0.08秒。

🔬 方法详解

问题定义:现有自动变道系统难以适应不同驾驶员的个性化偏好,而传统的在线进化方法需要大量的计算资源,无法实时进行个性化调整。因此,该论文旨在解决如何在计算资源有限的情况下,快速实现个性化自动变道的问题。现有方法主要痛点在于数据效率低,需要大量的驾驶数据才能完成模型训练和进化。

核心思路:该论文的核心思路是利用驾驶员的接管干预作为“lesson”,从中学习驾驶员的驾驶意图和偏好。通过分析接管行为,可以更高效地提取有价值的信息,从而加速个性化过程。这种方法避免了直接从大量的自然驾驶数据中学习,大大降低了计算复杂度。

技术框架:该方法主要包含以下几个模块:1) 驾驶区域生成:利用高斯判别分析(GDA)对在线接管数据进行分析,生成驾驶区域,确保感知安全。2) 奖励函数校正:通过学徒学习(Apprenticeship Learning)方法,根据驾驶员的接管行为,实时校正轨迹规划的奖励函数,使其更符合驾驶员的偏好。3) 轨迹规划:采用模型预测控制(MPC)进行轨迹规划,目标是在驾驶区域的约束下,优化奖励函数。整个流程是在线进行的,能够实时根据驾驶员的反馈进行调整。

关键创新:该论文的关键创新在于提出了基于Lesson Learning的个性化自动变道进化框架。与传统的从大量自然驾驶数据中学习的方法不同,该方法直接从驾驶员的接管干预中学习,极大地提高了学习效率。此外,结合高斯判别分析和学徒学习,能够有效地提取驾驶员的驾驶意图,并将其融入到轨迹规划中。

关键设计:在驾驶区域生成方面,使用高斯判别分析对驾驶员接管时的状态进行建模,从而确定安全的驾驶区域。在奖励函数校正方面,采用学徒学习方法,通过最小化专家(驾驶员)行为与系统行为之间的差异来更新奖励函数。模型预测控制器的目标函数是校正后的奖励函数,约束条件包括车辆动力学约束和驾驶区域约束。具体参数设置(如高斯判别分析的参数、学徒学习的参数、MPC的参数)在论文中可能有所涉及,但摘要中未明确说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,该系统能够成功实现个性化定制,无需进一步的接管干预。经验积累使进化效率提高了24%。平均学习迭代次数仅为13.8次,表明该方法具有快速学习能力。平均计算时间为0.08秒,满足实时性要求,验证了该方法在实际应用中的可行性。

🎯 应用场景

该研究成果可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统,实现车辆的个性化定制,提升驾驶员的驾驶体验和接受度。通过快速适应不同驾驶员的偏好,可以提高自动驾驶系统的安全性、舒适性和效率。未来,该技术还可扩展到其他驾驶场景,如自动泊车、拥堵辅助等。

📄 摘要(原文)

Personalization is crucial for the widespread adoption of advanced driver assistance system. To match up with each user's preference, the online evolution capability is a must. However, conventional evolution methods learn from naturalistic driving data, which requires a lot computing power and cannot be applied online. To address this challenge, this paper proposes a lesson learning approach: learning from driver's takeover interventions. By leveraging online takeover data, the driving zone is generated to ensure perceived safety using Gaussian discriminant analysis. Real-time corrections to trajectory planning rewards are enacted through apprenticeship learning. Guided by the objective of optimizing rewards within the constraints of the driving zone, this approach employs model predictive control for trajectory planning. This lesson learning framework is highlighted for its faster evolution capability, adeptness at experience accumulating, assurance of perceived safety, and computational efficiency. Simulation results demonstrate that the proposed system consistently achieves a successful customization without further takeover interventions. Accumulated experience yields a 24% enhancement in evolution efficiency. The average number of learning iterations is only 13.8. The average computation time is 0.08 seconds.