PP-TIL: Personalized Planning for Autonomous Driving with Instance-based Transfer Imitation Learning
作者: Fangze Lin, Ying He, Fei Yu
分类: cs.RO, cs.AI, cs.LG
发布日期: 2024-07-26 (更新: 2024-08-04)
备注: IROS 2024 Accepted
💡 一句话要点
PP-TIL:基于实例迁移模仿学习的自动驾驶个性化规划
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 个性化规划 迁移学习 模仿学习 逆强化学习
📋 核心要点
- 现有自动驾驶个性化规划方法难以有效利用有限的用户数据,在复杂城市场景中易出现过拟合。
- 提出基于实例的迁移模仿学习方法,利用大规模专家数据预训练,再通过用户数据微调,实现知识迁移。
- 实验表明,该方法能有效缓解用户数据稀疏导致的过拟合,并结合可微优化器提升规划性能。
📝 摘要(中文)
个性化运动规划在城市自动驾驶中至关重要,旨在满足不同用户的独特需求。然而,现有方法难以兼顾复杂城市环境下的个性化规划以及通过数据利用提升规划性能。用户数据昂贵且有限,场景状态空间趋于无穷,导致模型训练过程中出现过拟合和泛化性差的问题。为此,我们提出了一种基于实例的迁移模仿学习方法,将知识从大规模专家领域数据迁移到用户领域,从根本上解决这些问题。我们首先使用大规模专家数据训练一个预训练模型。随后,在微调阶段,我们输入包含专家和用户数据的批数据。利用逆强化学习技术,我们从用户演示中提取风格特征分布,构建用于近似用户风格的正则化项。实验结果表明,与基线方法相比,我们的方法缓解了稀疏用户数据导致的过拟合问题。此外,将驾驶模型与可微非线性优化器集成作为安全保护层,能够为端到端个性化微调带来更优异的规划性能。
🔬 方法详解
问题定义:论文旨在解决城市自动驾驶中个性化运动规划问题。现有方法在用户数据有限的情况下,难以在复杂城市场景中实现良好的泛化性能,容易出现过拟合,无法满足不同用户的驾驶风格需求。
核心思路:核心思路是利用迁移学习,将从大规模专家数据中学到的通用驾驶知识迁移到用户特定的驾驶风格上。通过模仿学习,让模型学习用户的驾驶习惯,从而实现个性化的运动规划。这样可以有效缓解用户数据稀疏带来的过拟合问题。
技术框架:整体框架包含两个主要阶段:预训练阶段和微调阶段。在预训练阶段,使用大规模专家数据训练一个通用的驾驶模型。在微调阶段,将专家数据和用户数据混合输入,利用逆强化学习提取用户驾驶风格的特征分布,并将其作为正则化项,约束模型的学习方向,使其更贴近用户的驾驶风格。
关键创新:关键创新在于将实例迁移学习与逆强化学习相结合,用于个性化运动规划。通过逆强化学习提取用户驾驶风格的特征分布,并将其作为正则化项,能够更有效地学习用户的驾驶习惯,从而实现更精准的个性化规划。
关键设计:在微调阶段,损失函数包含模仿学习损失和风格正则化损失。模仿学习损失用于学习专家的驾驶行为,风格正则化损失用于约束模型的输出,使其更接近用户的驾驶风格。具体而言,风格正则化损失基于用户演示数据提取的风格特征分布,例如速度、加速度等。此外,论文还探索了将驾驶模型与可微非线性优化器集成,作为安全保护层,进一步提升规划性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PP-TIL方法能够有效缓解用户数据稀疏导致的过拟合问题,并显著提升个性化运动规划的性能。与基线方法相比,该方法在多个指标上均取得了显著提升。此外,将驾驶模型与可微非线性优化器集成作为安全保护层,能够进一步提升规划性能。
🎯 应用场景
该研究成果可应用于自动驾驶车辆,为不同用户提供个性化的驾驶体验。例如,可以根据用户的驾驶习惯(激进或保守)调整车辆的行驶策略,提高用户满意度和安全性。此外,该方法还可应用于其他需要个性化定制的机器人运动规划任务,例如服务机器人、无人机等。
📄 摘要(原文)
Personalized motion planning holds significant importance within urban automated driving, catering to the unique requirements of individual users. Nevertheless, prior endeavors have frequently encountered difficulties in simultaneously addressing two crucial aspects: personalized planning within intricate urban settings and enhancing planning performance through data utilization. The challenge arises from the expensive and limited nature of user data, coupled with the scene state space tending towards infinity. These factors contribute to overfitting and poor generalization problems during model training. Henceforth, we propose an instance-based transfer imitation learning approach. This method facilitates knowledge transfer from extensive expert domain data to the user domain, presenting a fundamental resolution to these issues. We initially train a pre-trained model using large-scale expert data. Subsequently, during the fine-tuning phase, we feed the batch data, which comprises expert and user data. Employing the inverse reinforcement learning technique, we extract the style feature distribution from user demonstrations, constructing the regularization term for the approximation of user style. In our experiments, we conducted extensive evaluations of the proposed method. Compared to the baseline methods, our approach mitigates the overfitting issue caused by sparse user data. Furthermore, we discovered that integrating the driving model with a differentiable nonlinear optimizer as a safety protection layer for end-to-end personalized fine-tuning results in superior planning performance.