Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning

📄 arXiv: 2504.21561v4 📥 PDF

作者: Pengxiang Li, Zhi Gao, Bofei Zhang, Yapeng Mi, Xiaojian Ma, Chenrui Shi, Tao Yuan, Yuwei Wu, Yunde Jia, Song-Chun Zhu, Qing Li

分类: cs.CV

发布日期: 2025-04-30 (更新: 2025-10-24)

备注: 24 pages


💡 一句话要点

提出SPORT:通过逐步偏好调整迭代探索多模态Agent的工具使用策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 工具使用 自探索学习 偏好调整 无监督学习

📋 核心要点

  1. 现有训练多模态Agent的方法依赖大量人工标注数据,成本高昂且不切实际,尤其是在复杂多模态任务中。
  2. SPORT通过迭代的任务合成、步骤采样、步骤验证和偏好调整,使Agent无需人工标注即可自主探索有效的工具使用策略。
  3. 实验表明,SPORT在GTA和GAIA基准测试中分别取得了6.41%和3.64%的性能提升,验证了其泛化性和有效性。

📝 摘要(中文)

本文提出了一种名为SPORT的迭代工具使用探索方法,用于训练多模态Agent,无需任何预先收集的数据。该方法通过逐步偏好优化来改进工具使用轨迹,使Agent能够自主发现有效的工具使用策略,从而消除人工标注的瓶颈。SPORT包含四个迭代组件:任务合成、步骤采样、步骤验证和偏好调整。首先,使用语言模型合成多模态任务。然后,引入一种新颖的轨迹探索方案,交替执行步骤采样和步骤验证来解决合成任务。在步骤采样中,Agent尝试不同的工具并获得相应的结果。在步骤验证中,使用验证器提供AI反馈以构建逐步偏好数据。随后,该数据用于通过偏好调整来更新Agent的控制器,从而产生SPORT Agent。通过与真实环境交互,SPORT Agent逐渐演变为更完善和更有能力的系统。在GTA和GAIA基准测试中的评估表明,SPORT Agent分别实现了6.41%和3.64%的改进,突出了该方法引入的泛化性和有效性。

🔬 方法详解

问题定义:现有的多模态Agent训练方法,无论是监督微调还是强化学习,都严重依赖大量人工标注的任务-答案对和工具使用轨迹。然而,对于复杂的任务,获取这些标注数据的成本非常高昂,甚至是不切实际的。因此,如何在缺乏人工标注数据的情况下,训练出能够有效利用工具的多模态Agent是一个关键问题。

核心思路:SPORT的核心思路是通过迭代的自探索和优化,使多模态Agent能够自主学习工具的使用策略。具体来说,它通过合成任务、采样步骤、验证步骤和调整偏好这四个步骤的迭代循环,逐步改进Agent的工具使用能力。这种方法避免了对大量人工标注数据的依赖,降低了训练成本。

技术框架:SPORT的整体框架包含四个主要模块:1) 任务合成:使用语言模型生成多模态任务,为Agent提供学习环境。2) 步骤采样:Agent尝试不同的工具,并观察执行结果。3) 步骤验证:使用验证器(Verifier)评估Agent执行步骤的质量,并提供反馈。4) 偏好调整:根据验证器的反馈,调整Agent的控制器,使其更倾向于选择更有效的工具。这四个模块循环迭代,Agent不断学习和改进。

关键创新:SPORT的关键创新在于其迭代的自探索和优化框架,以及步骤验证器的引入。传统的训练方法依赖人工标注数据,而SPORT通过AI反馈构建偏好数据,实现了无监督的工具使用学习。步骤验证器能够提供细粒度的反馈,指导Agent逐步改进其工具使用策略。

关键设计:任务合成模块使用语言模型生成多样化的任务,保证Agent的学习具有泛化性。步骤验证器可以使用预训练模型或人工设计的规则来实现,用于评估Agent执行步骤的合理性和有效性。偏好调整模块可以使用强化学习或监督学习方法,根据验证器的反馈更新Agent的控制器。具体的损失函数和网络结构的选择取决于具体的任务和Agent模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPORT在GTA和GAIA基准测试中取得了显著的性能提升。在GTA基准测试中,SPORT Agent的性能提升了6.41%,在GAIA基准测试中,性能提升了3.64%。这些结果表明,SPORT方法能够有效地提高多模态Agent的工具使用能力,并且具有良好的泛化性。

🎯 应用场景

SPORT方法具有广泛的应用前景,可以应用于机器人控制、游戏AI、智能助手等领域。例如,可以训练机器人自主完成复杂的装配任务,或者训练游戏AI自主探索游戏世界。该方法降低了训练多模态Agent的成本,使其能够应用于更多实际场景,推动人工智能技术的发展。

📄 摘要(原文)

Multimodal agents, which integrate a controller e.g., a vision language model) with external tools, have demonstrated remarkable capabilities in tackling complex multimodal tasks. Existing approaches for training these agents, both supervised fine-tuning and reinforcement learning, depend on extensive human-annotated task-answer pairs and tool trajectories. However, for complex multimodal tasks, such annotations are prohibitively expensive or impractical to obtain. In this paper, we propose an iterative tool usage exploration method for multimodal agents without any pre-collected data, namely SPORT, via step-wise preference optimization to refine the trajectories of tool usage. Our method enables multimodal agents to autonomously discover effective tool usage strategies through self-exploration and optimization, eliminating the bottleneck of human annotation. SPORT has four iterative components: task synthesis, step sampling, step verification, and preference tuning. We first synthesize multimodal tasks using language models. Then, we introduce a novel trajectory exploration scheme, where step sampling and step verification are executed alternately to solve synthesized tasks. In step sampling, the agent tries different tools and obtains corresponding results. In step verification, we employ a verifier to provide AI feedback to construct step-wise preference data. The data is subsequently used to update the controller for tool usage through preference tuning, producing a SPORT agent. By interacting with real environments, the SPORT agent gradually evolves into a more refined and capable system. Evaluation in the GTA and GAIA benchmarks shows that the SPORT agent achieves 6.41% and 3.64% improvements, underscoring the generalization and effectiveness introduced by our method. The project page is https://SPORT-Agents.github.io.