Interact, Instruct to Improve: A LLM-Driven Parallel Actor-Reasoner Framework for Enhancing Autonomous Vehicle Interactions

作者: Shiyu Fang, Jiaqi Liu, Chengkai Xu, Chen Lv, Peng Hang, Jian Sun

分类: cs.RO

发布日期: 2025-03-01

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于LLM的并行Actor-Reasoner框架，提升自动驾驶车辆交互能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 人机交互 大型语言模型 强化学习 决策规划 交互式学习 行为预测

📋 核心要点

现有自动驾驶车辆在与人类驾驶车辆交互时，缺乏有效的意图表达和理解能力，影响了安全性与效率。
论文提出并行Actor-Reasoner框架，利用LLM进行推理，并构建交互记忆库，实现显式的双向人机交互。
实验结果表明，该框架显著提高了自动驾驶车辆在复杂交互场景中的安全性与效率，并在实际场景中验证了有效性。

📝 摘要（中文）

自动驾驶车辆(AVs)已进入商业化阶段，但其有限的交互和意图表达能力仍然对与人类驾驶车辆(HVs)的交互构成挑战。大型语言模型(LLMs)的最新进展实现了双向人机通信，但缓慢的推理速度与实时决策的需求之间的冲突对实际部署提出了挑战。为了解决这些问题，本文提出了一种并行的Actor-Reasoner框架，旨在实现跨多种场景的显式双向AV-HV交互。首先，通过促进LLM驱动的Reasoner与异构模拟HVs在训练期间的交互，建立了一个交互记忆数据库，称为Actor。然后，通过引入记忆分区模块和两层记忆检索模块，显著增强了Actor处理异构HVs的能力。消融研究和与其他决策方法的比较表明，所提出的Actor-Reasoner框架显著提高了安全性和效率。最后，结合来自Reasoner推理的外部人机界面(eHMI)信息和从Actor检索的可行动作解决方案，在多场景现场交互中证实了所提出的Actor-Reasoner的有效性。

🔬 方法详解

问题定义：自动驾驶车辆与人类驾驶车辆的交互能力不足，尤其是在意图表达和理解方面。现有方法难以兼顾实时决策的需求和复杂交互场景的处理，导致安全性和效率问题。大型语言模型虽然具备强大的推理能力，但推理速度慢，难以直接应用于实时决策。

核心思路：论文的核心思路是利用大型语言模型(LLM)进行推理，生成可解释的意图表达，并构建一个交互记忆库(Actor)，存储历史交互经验。通过并行执行推理和检索，实现快速且安全的决策。Actor负责快速响应，Reasoner负责提供高层次的推理和解释。

技术框架：该框架包含两个主要模块：Actor和Reasoner。Reasoner是一个基于LLM的推理模块，负责理解场景、生成意图表达和规划行为。Actor是一个交互记忆库，存储了大量的历史交互数据，并提供快速检索功能。训练阶段，Reasoner与模拟的异构人类驾驶车辆进行交互，并将交互数据存储到Actor中。推理阶段，Actor根据当前场景快速检索相似的交互经验，并提供可行的动作解决方案。同时，Reasoner进行推理，生成外部人机界面(eHMI)信息，辅助决策。

关键创新：该方法的主要创新点在于：1) 并行Actor-Reasoner架构，兼顾了推理速度和决策质量；2) 交互记忆库(Actor)的设计，能够有效地存储和检索历史交互经验；3) 记忆分区和两层记忆检索模块，提高了Actor处理异构人类驾驶车辆的能力。

关键设计：Actor采用记忆分区模块，将交互数据按照人类驾驶车辆的类型进行划分，提高检索效率。两层记忆检索模块首先根据场景特征进行粗略检索，然后根据意图表达进行精细检索。损失函数的设计旨在鼓励Actor学习到安全的交互策略。具体的参数设置和网络结构在论文中有详细描述，代码已开源。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的Actor-Reasoner框架在安全性和效率方面均优于其他决策方法。与基线方法相比，该框架显著降低了碰撞风险，并提高了通行效率。在多场景现场交互中，验证了该框架的有效性，证明了其在实际应用中的潜力。具体性能数据和提升幅度可在论文的实验部分找到。

🎯 应用场景

该研究成果可应用于提升自动驾驶车辆在复杂交通环境中的交互能力，提高安全性与通行效率。通过人机界面，自动驾驶车辆可以更清晰地表达意图，与人类驾驶员进行有效沟通，从而减少交通事故，优化交通流量。该技术还可应用于智能交通系统、驾驶辅助系统等领域。

📄 摘要（原文）

Autonomous Vehicles (AVs) have entered the commercialization stage, but their limited ability to interact and express intentions still poses challenges in interactions with Human-driven Vehicles (HVs). Recent advances in large language models (LLMs) enable bidirectional human-machine communication, but the conflict between slow inference speed and the need for real-time decision-making challenges practical deployment. To address these issues, this paper introduces a parallel Actor-Reasoner framework designed to enable explicit bidirectional AV-HV interactions across multiple scenarios. First, by facilitating interactions between the LLM-driven Reasoner and heterogeneous simulated HVs during training, an interaction memory database, referred to as the Actor, is established. Then, by introducing the memory partition module and the two-layer memory retrieval module, the Actor's ability to handle heterogeneous HVs is significantly enhanced. Ablation studies and comparisons with other decision-making methods demonstrate that the proposed Actor-Reasoner framework significantly improves safety and efficiency. Finally, with the combination of the external Human-Machine Interface (eHMI) information derived from Reasoner's reasoning and the feasible action solutions retrieved from the Actor, the effectiveness of the proposed Actor-Reasoner is confirmed in multi-scenario field interactions. Our code is available at https://github.com/FanGShiYuu/Actor-Reasoner.

Interact, Instruct to Improve: A LLM-Driven Parallel Actor-Reasoner Framework for Enhancing Autonomous Vehicle Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理