Large Language Model-assisted Autonomous Vehicle Recovery from Immobilization

作者: Zhipeng Bao, Qianwen Li

分类: cs.AI, cs.RO

发布日期: 2025-10-29 (更新: 2025-11-14)

备注: 7 pages

💡 一句话要点

提出StuckSolver，利用大语言模型辅助自动驾驶车辆脱困

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 大语言模型 脱困 自主决策 环境理解 人机交互 智能车辆

📋 核心要点

现有自动驾驶车辆在复杂交通场景中易陷入困境，远程干预成本高，人工接管限制了车辆的可用性。
StuckSolver利用大语言模型进行推理，结合车辆传感器数据和环境信息，生成脱困指令。
实验表明，StuckSolver在自主推理下性能接近最优，结合乘客指导后性能进一步提升。

📝 摘要（中文）

尽管近年来自动驾驶车辆取得了显著进展，但在某些人类驾驶员擅长的交通场景中，自动驾驶车辆仍然面临挑战。在这些情况下，自动驾驶车辆经常陷入无法行驶的状态，扰乱整体交通流量。现有的解决方案，如远程干预（成本高且效率低）和人工接管（排除非驾驶员并限制自动驾驶车辆的可访问性）并不充分。本文介绍了一种新颖的基于大语言模型（LLM）的脱困框架StuckSolver，使自动驾驶车辆能够通过自我推理和/或乘客引导的决策来解决无法行驶的场景。StuckSolver被设计为一个插件式的附加模块，运行在自动驾驶车辆现有的感知-规划-控制堆栈之上，无需修改其内部架构。相反，它与标准传感器数据流交互，以检测无法行驶的状态，解释环境上下文，并生成可由自动驾驶车辆原生规划器执行的高级恢复命令。我们在Bench2Drive基准测试和自定义设计的不确定性场景中评估了StuckSolver。结果表明，StuckSolver仅通过自主自我推理就实现了接近最先进的性能，并且在结合乘客指导后表现出进一步的改进。

🔬 方法详解

问题定义：自动驾驶车辆在复杂或未知的交通场景中容易出现“immobilization”问题，即车辆无法继续行驶，阻碍交通。现有的远程控制方案成本高昂，人工接管则限制了自动驾驶的适用范围，尤其对于无法驾驶的人群。因此，需要一种能够自主或辅助驾驶员进行脱困的方案。

核心思路：利用大语言模型（LLM）强大的推理和决策能力，结合车辆自身的传感器数据，对当前环境进行理解和分析，从而生成合理的脱困策略。核心在于将LLM作为高级决策者，指导车辆的底层控制系统执行相应的动作。

技术框架：StuckSolver作为一个插件模块，集成在现有的自动驾驶系统之上。其主要流程包括：1) 传感器数据输入：接收来自车辆各种传感器的信息，如摄像头、激光雷达等；2) 状态检测：判断车辆是否处于“immobilization”状态；3) 环境理解：利用LLM对周围环境进行分析，理解场景的上下文信息；4) 策略生成：基于环境理解，LLM生成高层次的脱困指令；5) 指令执行：将高层次指令转化为底层控制指令，由车辆的规划器执行。

关键创新：StuckSolver的核心创新在于将LLM引入到自动驾驶车辆的脱困过程中，利用LLM的推理能力来解决复杂场景下的决策问题。与传统的基于规则或强化学习的方法相比，LLM能够更好地理解环境的语义信息，并生成更灵活和适应性强的脱困策略。此外，StuckSolver还支持乘客引导，允许乘客通过自然语言与LLM进行交互，提供额外的环境信息或偏好，从而进一步提升脱困的成功率。

关键设计：StuckSolver的关键设计包括：1) LLM的选择和微调：选择合适的LLM，并使用自动驾驶相关的场景数据进行微调，以提高其在自动驾驶任务中的性能；2) 环境信息的编码方式：如何将传感器数据和环境信息有效地编码成LLM可以理解的格式；3) 指令的生成和执行：如何将LLM生成的高层次指令转化为车辆可以执行的底层控制指令；4) 乘客交互接口的设计：如何设计一个用户友好的乘客交互界面，允许乘客通过自然语言与LLM进行交流。

🖼️ 关键图片

📊 实验亮点

StuckSolver在Bench2Drive基准测试中表现出色，仅通过自主推理就达到了接近最先进的性能。在自定义的不确定性场景中，结合乘客指导后，StuckSolver的性能得到了进一步提升，表明了乘客引导在复杂场景下的有效性。具体性能数据（如成功脱困率、平均脱困时间等）未在摘要中给出，属于未知信息。

🎯 应用场景

StuckSolver可应用于各种自动驾驶车辆，尤其是在城市复杂交通环境和特殊场景（如恶劣天气、道路施工）下。该研究有助于提高自动驾驶车辆的可靠性和安全性，降低对远程人工干预的需求，并提升自动驾驶技术的用户体验和可访问性，最终推动自动驾驶技术的商业化落地。

📄 摘要（原文）

Despite significant advancements in recent decades, autonomous vehicles (AVs) continue to face challenges in navigating certain traffic scenarios where human drivers excel. In such situations, AVs often become immobilized, disrupting overall traffic flow. Current recovery solutions, such as remote intervention (which is costly and inefficient) and manual takeover (which excludes non-drivers and limits AV accessibility), are inadequate. This paper introduces StuckSolver, a novel Large Language Model (LLM) driven recovery framework that enables AVs to resolve immobilization scenarios through self-reasoning and/or passenger-guided decision-making. StuckSolver is designed as a plug-in add-on module that operates on top of the AV's existing perception-planning-control stack, requiring no modification to its internal architecture. Instead, it interfaces with standard sensor data streams to detect immobilization states, interpret environmental context, and generate high-level recovery commands that can be executed by the AV's native planner. We evaluate StuckSolver on the Bench2Drive benchmark and in custom-designed uncertainty scenarios. Results show that StuckSolver achieves near-state-of-the-art performance through autonomous self-reasoning alone and exhibits further improvements when passenger guidance is incorporated.

Large Language Model-assisted Autonomous Vehicle Recovery from Immobilization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理