From Words to Wheels: Automated Style-Customized Policy Generation for Autonomous Driving

📄 arXiv: 2409.11694v1 📥 PDF

作者: Xu Han, Xianda Chen, Zhenghan Cai, Pinlong Cai, Meixin Zhu, Xiaowen Chu

分类: cs.RO

发布日期: 2024-09-18

备注: 6 pages, 7 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Words2Wheels框架,通过自然语言指令自动生成定制化自动驾驶策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 自然语言指令 风格定制 强化学习 奖励函数 大型语言模型 人机交互

📋 核心要点

  1. 现有自动驾驶方法难以根据用户指令定制驾驶风格,依赖专家知识或数据驱动,存在数据获取难、风格对齐差、泛化性弱等问题。
  2. Words2Wheels框架利用大型语言模型和驾驶风格数据库,通过风格定制奖励函数,无需先验数据即可生成符合用户自然语言指令的驾驶策略。
  3. 实验结果表明,Words2Wheels在准确性、泛化性和适应性方面超越现有方法,为自动驾驶车辆提供更灵活的定制化驾驶体验。

📝 摘要(中文)

本文提出了一种名为Words2Wheels的框架,旨在根据自然语言用户指令自动生成定制化的自动驾驶策略。现有自动驾驶车辆在提供基于指令的驾驶风格方面存在局限性,传统方法依赖于预定义的驾驶风格或从驾驶数据中提取风格,面临着难以获取特定驾驶数据、驾驶风格指标与用户偏好不一致以及无法泛化到新指令等挑战。Words2Wheels采用风格定制奖励函数,无需先验驾驶数据即可生成风格定制的驾驶策略。该框架利用大型语言模型和驾驶风格数据库,高效地检索、调整和泛化驾驶风格。统计评估模块确保与用户偏好对齐。实验结果表明,Words2Wheels在准确性、泛化性和适应性方面优于现有方法,为定制化自动驾驶行为提供了一种新颖的解决方案。

🔬 方法详解

问题定义:现有自动驾驶系统难以根据用户自然语言指令定制驾驶风格。传统方法依赖预定义的驾驶风格,需要专家知识;或者使用逆强化学习等数据驱动方法,但难以获取特定风格的数据,且风格指标与用户偏好对齐困难,无法泛化到新的指令。这限制了自动驾驶车辆的个性化和用户体验。

核心思路:Words2Wheels的核心思路是利用大型语言模型(LLM)理解用户自然语言指令,并将其转化为风格定制的奖励函数,然后使用强化学习训练自动驾驶策略。通过这种方式,系统无需预先收集特定风格的驾驶数据,即可生成符合用户指令的驾驶行为。LLM作为桥梁,连接了自然语言指令和驾驶策略。

技术框架:Words2Wheels框架主要包含以下几个模块:1) 自然语言指令解析模块:使用LLM解析用户输入的自然语言指令,提取关键的驾驶风格信息。2) 驾驶风格数据库:存储各种驾驶风格的描述和相关参数。3) 风格定制奖励函数生成模块:根据解析的指令和驾驶风格数据库,生成一个定制化的奖励函数,该函数能够引导智能体学习期望的驾驶行为。4) 强化学习训练模块:使用生成的奖励函数训练自动驾驶策略。5) 统计评估模块:对生成的驾驶策略进行统计评估,确保其与用户偏好对齐。

关键创新:该论文的关键创新在于使用自然语言指令直接生成定制化的奖励函数,从而实现无需先验数据的风格定制驾驶策略。与传统方法相比,Words2Wheels不需要收集特定风格的驾驶数据,也不依赖专家知识,能够更好地泛化到新的指令和场景。此外,利用LLM理解用户指令,提高了系统的交互性和用户体验。

关键设计:奖励函数的设计是关键。论文可能采用了分层奖励机制,例如,包含目标达成奖励、安全奖励和风格奖励。风格奖励的设计需要仔细考虑,如何将自然语言指令转化为可量化的奖励信号。LLM的选择和微调也很重要,需要选择能够理解驾驶相关指令的LLM,并进行微调以提高其性能。此外,强化学习算法的选择也会影响训练效果,例如,可以使用PPO等算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Words2Wheels在准确性、泛化性和适应性方面优于现有方法。具体而言,Words2Wheels能够根据用户指令生成符合期望的驾驶行为,例如,在“平稳驾驶”指令下,车辆的加速度和急刹车次数明显减少;在“快速到达”指令下,车辆的平均速度和超车次数增加。与基线方法相比,Words2Wheels在各种驾驶场景下的成功率和用户满意度均有显著提升。

🎯 应用场景

Words2Wheels技术可应用于Robotaxi、自动驾驶物流车等领域,提升用户体验和运营效率。用户可以通过自然语言指令定制驾驶风格,例如“平稳驾驶”、“快速到达”等,满足个性化需求。该技术还可用于自动驾驶教练系统,根据学员的驾驶水平和学习目标,生成定制化的训练策略。未来,该技术有望与车载语音助手集成,实现更自然、便捷的人机交互。

📄 摘要(原文)

Autonomous driving technology has witnessed rapid advancements, with foundation models improving interactivity and user experiences. However, current autonomous vehicles (AVs) face significant limitations in delivering command-based driving styles. Most existing methods either rely on predefined driving styles that require expert input or use data-driven techniques like Inverse Reinforcement Learning to extract styles from driving data. These approaches, though effective in some cases, face challenges: difficulty obtaining specific driving data for style matching (e.g., in Robotaxis), inability to align driving style metrics with user preferences, and limitations to pre-existing styles, restricting customization and generalization to new commands. This paper introduces Words2Wheels, a framework that automatically generates customized driving policies based on natural language user commands. Words2Wheels employs a Style-Customized Reward Function to generate a Style-Customized Driving Policy without relying on prior driving data. By leveraging large language models and a Driving Style Database, the framework efficiently retrieves, adapts, and generalizes driving styles. A Statistical Evaluation module ensures alignment with user preferences. Experimental results demonstrate that Words2Wheels outperforms existing methods in accuracy, generalization, and adaptability, offering a novel solution for customized AV driving behavior. Code and demo available at https://yokhon.github.io/Words2Wheels/.