AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

作者: Kangan Qian, Sicong Jiang, Yang Zhong, Ziang Luo, Zilin Huang, Tianze Zhu, Kun Jiang, Mengmeng Yang, Zheng Fu, Jinyu Miao, Yining Shi, He Zhe Lim, Li Liu, Tianbao Zhou, Huang Yu, Yifei Hu, Guang Li, Guang Chen, Hao Ye, Lijun Sun, Diange Yang

分类: cs.RO, cs.CL, cs.CV

发布日期: 2025-05-21 (更新: 2025-09-28)

备注: 19 pages, 8 figures

期刊: EMNLP2025 Fundings

🔗 代码/项目: GITHUB

💡 一句话要点

AgentThink：用于自动驾驶中视觉-语言模型工具增强型思维链推理的统一框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言模型 思维链 工具调用 强化学习

📋 核心要点

现有VLM在自动驾驶中存在幻觉、推理效率低和缺乏真实世界验证等问题，限制了其应用。
AgentThink框架结合CoT推理和智能体风格的工具调用，提升VLM在自动驾驶任务中的性能。
实验表明，AgentThink在推理分数和答案准确率上均有显著提升，并展现出强大的泛化能力。

📝 摘要（中文）

视觉-语言模型(VLM)在自动驾驶领域展现出潜力，但其在幻觉、低效推理以及有限的真实世界验证方面的不足，阻碍了精确感知和稳健的逐步推理。为了克服这些问题，我们提出了AgentThink，这是一个开创性的统一框架，它将思维链(CoT)推理与动态的、智能体风格的工具调用集成，用于自动驾驶任务。AgentThink的核心创新包括：(i)结构化数据生成，它建立了一个自动驾驶工具库，以自动构建结构化的、自我验证的推理数据，明确地将工具使用纳入到不同的驾驶场景中；(ii)一个两阶段训练流程，采用监督式微调(SFT)与群体相对策略优化(GRPO)，使VLM具备自主工具调用的能力；(iii)智能体风格的工具使用评估，引入了一种新的多工具评估协议，以严格评估模型的工具调用和利用。在DriveLMM-o1基准上的实验表明，AgentThink显著提高了总体推理分数53.91%，并提高了答案准确率33.54%，同时显著提高了推理质量和一致性。此外，消融研究和跨各种基准的稳健的零样本/少样本泛化实验突出了其强大的能力。这些发现为开发可信赖的、具有工具意识的自动驾驶模型指明了一条有希望的道路。

🔬 方法详解

问题定义：论文旨在解决视觉-语言模型（VLM）在自动驾驶场景中推理能力不足的问题。现有的VLM方法容易产生幻觉，推理效率低下，并且缺乏在真实世界场景中的有效验证，导致其在自动驾驶任务中的应用受到限制。这些痛点阻碍了VLM在自动驾驶领域实现精确感知和稳健的逐步推理。

核心思路：AgentThink的核心思路是将思维链（CoT）推理与动态的、智能体风格的工具调用相结合。通过构建一个自动驾驶工具库，并利用该工具库生成结构化的、自我验证的推理数据，AgentThink能够使VLM具备自主工具调用的能力。这种方法旨在提高VLM的推理质量、一致性和准确性，从而克服现有方法的局限性。

技术框架：AgentThink框架包含三个主要组成部分：结构化数据生成、两阶段训练流程和智能体风格的工具使用评估。首先，结构化数据生成模块利用自动驾驶工具库自动构建包含工具使用的推理数据。其次，两阶段训练流程采用监督式微调（SFT）和群体相对策略优化（GRPO）来训练VLM，使其具备工具调用能力。最后，智能体风格的工具使用评估模块引入多工具评估协议，用于评估模型的工具调用和利用情况。

关键创新：AgentThink的关键创新在于其统一的框架，该框架将CoT推理与智能体风格的工具调用集成，并引入了结构化数据生成和两阶段训练流程。与现有方法相比，AgentThink能够更有效地利用外部工具来增强VLM的推理能力，并提高其在自动驾驶任务中的性能。此外，AgentThink还引入了一种新的多工具评估协议，用于更全面地评估模型的工具使用情况。

关键设计：AgentThink的关键设计包括自动驾驶工具库的构建、SFT和GRPO的训练策略以及多工具评估协议的定义。自动驾驶工具库包含各种与自动驾驶相关的工具，例如目标检测、路径规划等。SFT用于初始化模型的工具调用能力，而GRPO则用于进一步优化模型的策略。多工具评估协议定义了评估模型工具使用情况的指标和方法，例如工具调用频率、工具使用准确率等。具体的参数设置和网络结构等技术细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

AgentThink在DriveLMM-o1基准测试中，总体推理分数提升了53.91%，答案准确率提升了33.54%。消融实验验证了各个模块的有效性。零样本和少样本泛化实验表明，AgentThink在不同基准测试中具有强大的泛化能力，证明了其在自动驾驶领域的潜力。

🎯 应用场景

AgentThink框架可应用于自动驾驶系统的感知、决策和控制模块，提升自动驾驶车辆在复杂环境下的安全性和可靠性。该研究的实际价值在于提高自动驾驶系统的智能化水平，减少人为干预，并最终实现更高级别的自动驾驶。未来，该框架有望扩展到其他机器人领域，例如服务机器人和工业机器人。

📄 摘要（原文）

Vision-Language Models (VLMs) show promise for autonomous driving, yet their struggle with hallucinations, inefficient reasoning, and limited real-world validation hinders accurate perception and robust step-by-step reasoning. To overcome this, we introduce \textbf{AgentThink}, a pioneering unified framework that integrates Chain-of-Thought (CoT) reasoning with dynamic, agent-style tool invocation for autonomous driving tasks. AgentThink's core innovations include: \textbf{(i) Structured Data Generation}, which establishes an autonomous driving tool library to automatically construct structured, self-verified reasoning data explicitly incorporating tool usage for diverse driving scenarios; \textbf{(ii) A Two-stage Training Pipeline}, employing Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO) to equip VLMs with the capability for autonomous tool invocation; and \textbf{(iii) Agent-style Tool-Usage Evaluation}, introducing a novel multi-tool assessment protocol to rigorously evaluate the model's tool invocation and utilization. Experiments on the DriveLMM-o1 benchmark demonstrate that AgentThink significantly boosts overall reasoning scores by \textbf{53.91%} and enhances answer accuracy by \textbf{33.54%}, while markedly improving reasoning quality and consistency. Furthermore, ablation studies and robust zero-shot/few-shot generalization experiments across various benchmarks underscore its powerful capabilities. These findings highlight a promising trajectory for developing trustworthy and tool-aware autonomous driving models. Code is available at https://github.com/curryqka/AgentThink.

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理