Text-to-Drive: Diverse Driving Behavior Synthesis via Large Language Models

📄 arXiv: 2406.04300v1 📥 PDF

作者: Phat Nguyen, Tsun-Hsuan Wang, Zhang-Wei Hong, Sertac Karaman, Daniela Rus

分类: cs.RO

发布日期: 2024-06-06

备注: 14 pages, 7 figures


💡 一句话要点

提出Text-to-Drive,利用大语言模型合成多样化的自动驾驶行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 行为合成 大语言模型 驾驶模拟 自然语言交互

📋 核心要点

  1. 现有方法难以低成本地模拟多样且有意义的自动驾驶交互场景,缺乏大规模语言-轨迹数据是主要挑战。
  2. Text-to-Drive (T2D) 利用大语言模型的知识和推理能力,通过两阶段方法生成多样化的驾驶行为。
  3. T2D无需人工监督,即可生成更多样化的轨迹,并提供自然语言交互界面,方便融入人类偏好。

📝 摘要(中文)

通过模拟生成各种场景对于训练和评估自动驾驶等安全关键系统至关重要。然而,对其他车辆的轨迹进行建模,以模拟各种有意义的近距离交互行为,其成本仍然高昂。采用语言描述来生成驾驶行为是一种很有前景的策略,它为人类操作员提供了一种可扩展且直观的方法来模拟各种驾驶交互。然而,大规模带注释的语言-轨迹数据的稀缺性使得这种方法具有挑战性。为了解决这个问题,我们提出了Text-to-Drive (T2D),通过大语言模型(LLM)合成多样化的驾驶行为。我们引入了一种知识驱动的方法,该方法分两个阶段运行。在第一阶段,我们利用LLM的嵌入知识为场景生成各种驾驶行为的语言描述。然后,我们利用LLM的推理能力在模拟中合成这些行为。T2D的核心是使用LLM构建一个状态图,该状态图将低级状态映射到高级抽象。这种策略有助于下游任务,例如总结低级观察、评估策略与行为描述的一致性以及塑造辅助奖励,所有这些都无需人工监督。通过我们的知识驱动方法,我们证明了T2D生成了比其他基线更多样化的轨迹,并提供了一个自然语言界面,允许交互式地融入人类偏好。

🔬 方法详解

问题定义:论文旨在解决自动驾驶仿真中,难以低成本生成多样化、有意义的车辆交互行为的问题。现有方法依赖于大量标注数据或复杂的规则设计,成本高昂且泛化性差。缺乏一种可扩展、直观的方法来模拟各种驾驶场景,特别是那些涉及复杂交互的场景。

核心思路:论文的核心思路是利用大语言模型(LLM)的强大语言理解和生成能力,将驾驶行为的描述转化为可执行的轨迹。通过LLM理解自然语言指令,并将其转化为车辆控制策略,从而实现多样化驾驶行为的合成。这种方法避免了对大量标注数据的依赖,并允许用户通过自然语言交互来定制驾驶场景。

技术框架:T2D框架包含两个主要阶段:1) 语言描述生成:利用LLM生成场景中车辆行为的语言描述,例如“车辆A超车车辆B后并入车道”。LLM利用其内部知识库,生成多样化的行为描述。2) 行为合成:利用LLM的推理能力,将语言描述转化为车辆的控制策略,并在仿真环境中执行。LLM构建一个状态图,将低级状态(例如车辆速度、位置)映射到高级抽象(例如超车、并入)。

关键创新:T2D的关键创新在于将LLM应用于驾驶行为合成,并提出了一种知识驱动的方法。与传统的基于规则或数据驱动的方法不同,T2D利用LLM的语言理解和生成能力,实现了更灵活、更可扩展的驾驶行为模拟。通过状态图的构建,实现了低级状态到高级抽象的映射,从而简化了行为合成的过程。

关键设计:T2D使用LLM生成驾驶行为的语言描述,并将其转化为车辆控制策略。具体来说,LLM被用于构建一个状态图,该状态图将低级状态(例如车辆速度、位置)映射到高级抽象(例如超车、并入)。状态图中的每个状态对应于一种特定的驾驶行为,状态之间的转换由LLM根据语言描述进行推理。论文中没有明确说明具体的参数设置、损失函数或网络结构,这些细节可能依赖于所使用的LLM的具体实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,Text-to-Drive能够生成比其他基线方法更多样化的驾驶轨迹。T2D提供了一个自然语言界面,允许用户交互式地融入人类偏好,从而实现更灵活的驾驶场景定制。具体性能数据和提升幅度未在摘要中明确给出,需要在论文正文中查找。

🎯 应用场景

Text-to-Drive具有广泛的应用前景,可用于自动驾驶系统的训练、测试和验证。通过生成各种复杂的驾驶场景,可以提高自动驾驶系统的鲁棒性和安全性。此外,T2D还可以用于驾驶员行为分析、交通流建模和智能交通系统设计等领域。该研究提供了一种利用自然语言交互来定制驾驶场景的新方法,有望推动自动驾驶技术的发展。

📄 摘要(原文)

Generating varied scenarios through simulation is crucial for training and evaluating safety-critical systems, such as autonomous vehicles. Yet, the task of modeling the trajectories of other vehicles to simulate diverse and meaningful close interactions remains prohibitively costly. Adopting language descriptions to generate driving behaviors emerges as a promising strategy, offering a scalable and intuitive method for human operators to simulate a wide range of driving interactions. However, the scarcity of large-scale annotated language-trajectory data makes this approach challenging. To address this gap, we propose Text-to-Drive (T2D) to synthesize diverse driving behaviors via Large Language Models (LLMs). We introduce a knowledge-driven approach that operates in two stages. In the first stage, we employ the embedded knowledge of LLMs to generate diverse language descriptions of driving behaviors for a scene. Then, we leverage LLM's reasoning capabilities to synthesize these behaviors in simulation. At its core, T2D employs an LLM to construct a state chart that maps low-level states to high-level abstractions. This strategy aids in downstream tasks such as summarizing low-level observations, assessing policy alignment with behavior description, and shaping the auxiliary reward, all without needing human supervision. With our knowledge-driven approach, we demonstrate that T2D generates more diverse trajectories compared to other baselines and offers a natural language interface that allows for interactive incorporation of human preference. Please check our website for more examples: https://text-to-drive.github.io/