ManeuverGPT Agentic Control for Safe Autonomous Stunt Maneuvers

作者: Shawn Azdam, Pranav Doma, Aliasghar Moj Arab

分类: cs.RO, cs.AI, eess.SY

发布日期: 2025-03-12

备注: 6 Pages, Submitted to IROS

💡 一句话要点

提出ManeuverGPT，利用LLM Agent实现安全自主的特技机动控制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 大型语言模型 Agent控制 特技机动 CARLA仿真

📋 核心要点

现有自动驾驶主动安全功能难以执行专业特技驾驶员级别的高敏捷避险动作，无法在车辆操控极限下安全避障。
ManeuverGPT利用LLM Agent作为控制器，通过迭代的、基于提示的方法优化车辆控制参数，实现高动态特技动作的生成与执行。
实验结果表明，ManeuverGPT可以通过文本提示成功控制多种车辆模型执行J型转弯，并能适应不同的车辆动力学。

📝 摘要（中文）

本文提出了一种名为ManeuverGPT的新框架，用于在自动驾驶车辆中生成和执行高动态特技动作，该框架使用基于大型语言模型（LLM）的Agent作为控制器。目标是在CARLA仿真环境中实现诸如J型转弯等高难度动作，并展示了一种迭代的、基于提示的方法来优化车辆控制参数，从零开始无需重新训练模型权重。该框架包含三个专门的Agent：（1）用于情境化用户命令的查询丰富Agent，（2）用于生成机动参数的驾驶Agent，以及（3）用于执行基于物理和安全约束的参数验证Agent。实验结果表明，可以通过文本提示成功执行多种车辆模型的J型转弯，并适应不同的车辆动力学。通过既定的成功标准评估性能，并讨论了关于数值精度和场景复杂性的局限性。研究结果强调了LLM驱动控制在灵活、高动态机动方面的潜力，同时也强调了结合基于语言的推理和算法验证的混合方法的重要性。

🔬 方法详解

问题定义：论文旨在解决自动驾驶车辆在极限工况下安全执行高动态特技动作的问题，例如J型转弯。现有方法难以在车辆操控极限下实现高敏捷的避险动作，并且缺乏足够的灵活性和适应性来应对不同的车辆动力学特性。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大推理和生成能力，将其作为智能Agent来控制车辆执行特技动作。通过迭代的提示工程，逐步优化控制参数，使车辆能够安全、准确地完成目标动作。这种方法无需重新训练模型权重，具有很强的灵活性和泛化能力。

技术框架：ManeuverGPT框架包含三个主要Agent：1) 查询丰富Agent：负责理解和情境化用户输入的文本指令，将其转化为更具体、更易于执行的任务描述。2) 驾驶Agent：根据查询丰富Agent的输出，生成车辆控制所需的参数，例如转向角度、油门开度等。3) 参数验证Agent：负责验证驾驶Agent生成的参数是否满足物理约束和安全约束，确保车辆在执行动作过程中不会发生危险。这三个Agent协同工作，形成一个完整的控制闭环。

关键创新：该论文最重要的技术创新在于将LLM Agent引入到自动驾驶车辆的运动控制中，并利用迭代的提示工程来优化控制参数。与传统的基于规则或优化的控制方法相比，ManeuverGPT具有更强的灵活性和适应性，能够处理更复杂的场景和任务。此外，参数验证Agent的引入也保证了控制的安全性。

关键设计：论文采用迭代的提示工程方法来优化控制参数。具体来说，首先给LLM Agent一个初始的提示，让其生成一组控制参数。然后，在CARLA仿真环境中执行该动作，并根据执行结果调整提示，让LLM Agent生成更优的参数。这个过程不断迭代，直到车辆能够安全、准确地完成目标动作。此外，参数验证Agent的设计也至关重要，它需要能够准确地判断参数是否满足物理约束和安全约束。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ManeuverGPT可以通过文本提示成功控制多种车辆模型执行J型转弯，并能适应不同的车辆动力学。该方法无需重新训练模型权重，具有很强的灵活性和泛化能力。通过既定的成功标准评估性能，验证了该方法的可行性和有效性。虽然论文也讨论了数值精度和场景复杂性的局限性，但整体实验结果表明了LLM驱动控制在自动驾驶领域的巨大潜力。

🎯 应用场景

该研究成果可应用于高级驾驶辅助系统（ADAS）和自动驾驶系统，提升车辆在紧急情况下的避险能力。例如，在车辆即将发生碰撞时，系统可以自动执行J型转弯等特技动作来避免事故。此外，该技术还可以应用于特种车辆的控制，例如警车、消防车等，使其能够在复杂环境下执行高难度任务。未来，该技术有望进一步发展，实现更复杂、更安全的自动驾驶。

📄 摘要（原文）

The next generation of active safety features in autonomous vehicles should be capable of safely executing evasive hazard-avoidance maneuvers akin to those performed by professional stunt drivers to achieve high-agility motion at the limits of vehicle handling. This paper presents a novel framework, ManeuverGPT, for generating and executing high-dynamic stunt maneuvers in autonomous vehicles using large language model (LLM)-based agents as controllers. We target aggressive maneuvers, such as J-turns, within the CARLA simulation environment and demonstrate an iterative, prompt-based approach to refine vehicle control parameters, starting tabula rasa without retraining model weights. We propose an agentic architecture comprised of three specialized agents (1) a Query Enricher Agent for contextualizing user commands, (2) a Driver Agent for generating maneuver parameters, and (3) a Parameter Validator Agent that enforces physics-based and safety constraints. Experimental results demonstrate successful J-turn execution across multiple vehicle models through textual prompts that adapt to differing vehicle dynamics. We evaluate performance via established success criteria and discuss limitations regarding numeric precision and scenario complexity. Our findings underscore the potential of LLM-driven control for flexible, high-dynamic maneuvers, while highlighting the importance of hybrid approaches that combine language-based reasoning with algorithmic validation.

ManeuverGPT Agentic Control for Safe Autonomous Stunt Maneuvers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理