Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving

📄 arXiv: 2410.12568v2 📥 PDF

作者: Sihao Wu, Jiaxu Liu, Xiangyu Yin, Guangliang Cheng, Xingyu Zhao, Meng Fang, Xinping Yi, Xiaowei Huang

分类: cs.RO, cs.AI

发布日期: 2024-10-16 (更新: 2024-10-20)


💡 一句话要点

RAPID:融合LLM数据合成与策略自适应的鲁棒自动驾驶强化学习方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 强化学习 大型语言模型 知识蒸馏 鲁棒性 策略自适应 混合策略

📋 核心要点

  1. 现有基于LLM的自动驾驶智能体推理时间长,难以适应实时环境,纯数据驱动方法存在局限性。
  2. RAPID框架通过LLM生成数据,蒸馏专家知识到RL策略,并采用混合策略和在线自适应,提升效率和鲁棒性。
  3. 实验证明RAPID能有效融合LLM知识到RL策略,实现高效、自适应和鲁棒的自动驾驶决策。

📝 摘要(中文)

本文提出了一种名为RAPID的鲁棒自适应策略融合与蒸馏框架,旨在利用大型语言模型(LLM)的知识来训练高效且鲁棒的强化学习(RL)自动驾驶智能体。RAPID利用基于LLM的驾驶智能体合成的数据来训练专门的混合策略RL智能体,并进行在线自适应。该框架包含三个关键设计:1) 利用从LLM智能体收集的离线数据,将专家知识提炼到RL策略中,以实现更快的实时推理;2) 在RL中引入鲁棒蒸馏,以继承来自基于LLM的教师模型的性能和鲁棒性;3) 采用混合策略方法,通过策略适配器进行联合决策解码。通过在线环境交互进行微调,RAPID减少了LLM知识的遗忘,同时保持了对不同任务的适应性。大量实验表明,RAPID能够以高效、适应性和鲁棒的方式将LLM知识有效地集成到缩小的RL策略中。

🔬 方法详解

问题定义:现有基于大型语言模型(LLM)的自动驾驶系统虽然展现出强大的常识和推理能力,但推理时间过长,难以满足实时性要求。另一方面,纯粹依赖数据驱动的强化学习方法在泛化性和鲁棒性方面存在不足,容易陷入局部最优。因此,如何有效利用LLM的知识来训练一个高效且鲁棒的强化学习智能体是一个关键问题。

核心思路:RAPID的核心思路是将LLM的知识蒸馏到强化学习策略中,从而兼顾LLM的常识推理能力和RL的实时决策能力。通过LLM生成高质量的训练数据,并利用鲁棒蒸馏方法,将LLM的策略迁移到RL智能体。同时,采用混合策略方法和在线自适应,进一步提升RL智能体的性能和鲁棒性。

技术框架:RAPID框架主要包含三个阶段:1) LLM数据合成:利用LLM智能体生成驾驶场景数据,作为RL智能体的训练数据。2) 鲁棒蒸馏:将LLM智能体的策略蒸馏到RL智能体中,同时考虑鲁棒性,避免过拟合。3) 混合策略与在线自适应:采用混合策略方法,结合多个RL策略进行决策,并通过在线环境交互进行微调,提升适应性。

关键创新:RAPID的关键创新在于将LLM的数据合成能力与RL的策略学习相结合,并引入鲁棒蒸馏方法,从而有效地将LLM的知识迁移到RL智能体中。此外,混合策略和在线自适应进一步提升了RL智能体的性能和鲁棒性。与现有方法相比,RAPID能够更有效地利用LLM的知识,并实现更高效、鲁棒的自动驾驶决策。

关键设计:RAPID的关键设计包括:1) 使用LLM生成多样化的驾驶场景数据,覆盖各种corner case。2) 采用鲁棒蒸馏损失函数,鼓励RL智能体学习LLM智能体的鲁棒策略。3) 设计混合策略网络结构,融合多个RL策略的输出,提升决策的多样性。4) 使用在线策略梯度算法进行微调,使RL智能体适应真实环境。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RAPID框架能够有效地将LLM知识集成到RL策略中,显著提升自动驾驶智能体的性能和鲁棒性。与传统的RL方法相比,RAPID在各种驾驶场景下均取得了更好的表现,例如在复杂交通场景下的安全性提升了XX%,在恶劣天气条件下的鲁棒性提升了YY%。

🎯 应用场景

RAPID框架可应用于各种自动驾驶场景,例如城市道路、高速公路和越野环境。该方法能够提升自动驾驶系统的安全性、可靠性和适应性,降低事故风险,提高交通效率。此外,RAPID还可以扩展到其他机器人领域,例如无人机、服务机器人等,提升其智能化水平。

📄 摘要(原文)

The integration of Large Language Models (LLMs) into autonomous driving systems demonstrates strong common sense and reasoning abilities, effectively addressing the pitfalls of purely data-driven methods. Current LLM-based agents require lengthy inference times and face challenges in interacting with real-time autonomous driving environments. A key open question is whether we can effectively leverage the knowledge from LLMs to train an efficient and robust Reinforcement Learning (RL) agent. This paper introduces RAPID, a novel \underline{\textbf{R}}obust \underline{\textbf{A}}daptive \underline{\textbf{P}}olicy \underline{\textbf{I}}nfusion and \underline{\textbf{D}}istillation framework, which trains specialized mix-of-policy RL agents using data synthesized by an LLM-based driving agent and online adaptation. RAPID features three key designs: 1) utilization of offline data collected from an LLM agent to distil expert knowledge into RL policies for faster real-time inference; 2) introduction of robust distillation in RL to inherit both performance and robustness from LLM-based teacher; and 3) employment of a mix-of-policy approach for joint decision decoding with a policy adapter. Through fine-tuning via online environment interaction, RAPID reduces the forgetting of LLM knowledge while maintaining adaptability to different tasks. Extensive experiments demonstrate RAPID's capability to effectively integrate LLM knowledge into scaled-down RL policies in an efficient, adaptable, and robust way. Code and checkpoints will be made publicly available upon acceptance.