AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
作者: Mingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng
分类: cs.AI, cs.CL, cs.CV, cs.MA
发布日期: 2026-01-26
备注: 28 pages, 10 figures and 13 tables
💡 一句话要点
AdaReasoner:用于迭代视觉推理的动态工具编排框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉推理 工具使用 强化学习 动态编排 自适应学习 大型语言模型
📋 核心要点
- 现有MLLM在复杂视觉推理任务中,缺乏有效利用工具的能力,难以适应新工具和新任务。
- AdaReasoner通过强化学习Tool-GRPO和自适应学习机制,使模型能够动态选择和组合工具,提升推理能力。
- 实验表明,AdaReasoner在多个基准测试中取得了SOTA性能,并在工具泛化能力上超越了GPT-5等专有系统。
📝 摘要(中文)
当人类面临超出自身能力的问题时,会依赖工具。这为改进多模态大型语言模型(MLLM)中的视觉推理提供了一个有希望的范例。有效的推理取决于知道使用哪些工具、何时调用它们以及如何在多个步骤中组合它们,即使面对新的工具或新的任务。我们引入了AdaReasoner,这是一系列多模态模型,它将工具使用学习为一种通用的推理技能,而不是特定于工具或显式监督的行为。AdaReasoner的实现依赖于:(i)一个可扩展的数据管理流程,使模型能够进行长期的、多步骤的工具交互;(ii)Tool-GRPO,一种强化学习算法,它基于最终任务的成功来优化工具的选择和排序;以及(iii)一种自适应学习机制,可以动态地调节工具的使用。这些组件共同使模型能够从任务上下文和中间结果中推断出工具的效用,从而实现多个工具的协调和推广到未见过的工具。实验表明,AdaReasoner表现出强大的工具自适应和泛化行为:它可以自主地采用有益的工具,抑制不相关的工具,并根据任务需求调整工具的使用频率,尽管从未经过明确的训练。这些能力转化为具有挑战性的基准测试中的最先进性能,使7B基础模型平均提高了+24.9%,并在包括VSP和Jigsaw在内的多项任务上超越了强大的专有系统(如GPT-5)。
🔬 方法详解
问题定义:现有的大型多模态模型(MLLM)在解决复杂的视觉推理任务时,往往难以有效地利用外部工具。它们通常需要针对特定工具进行专门训练,或者依赖于显式的监督信号来指导工具的使用。这导致模型难以适应新的工具和任务,泛化能力较差。现有的方法缺乏一种通用的机制,使得模型能够自主地学习工具的使用策略,并根据任务的需求动态地选择和组合工具。
核心思路:AdaReasoner的核心思路是将工具的使用视为一种通用的推理技能,而不是特定于工具或显式监督的行为。通过强化学习,模型可以从与环境的交互中学习工具的效用,并根据任务的上下文和中间结果来动态地调整工具的使用策略。这种方法使得模型能够自主地发现有用的工具,抑制不相关的工具,并根据任务的需求调整工具的使用频率。
技术框架:AdaReasoner的技术框架主要包括三个组成部分:(1) 一个可扩展的数据管理流程,用于生成长期的、多步骤的工具交互数据;(2) Tool-GRPO,一种强化学习算法,用于优化工具的选择和排序;(3) 一种自适应学习机制,用于动态地调节工具的使用。模型首先通过数据管理流程接触到大量的工具交互数据,然后使用Tool-GRPO算法学习工具的使用策略。最后,自适应学习机制根据任务的需求动态地调整工具的使用频率。
关键创新:AdaReasoner的关键创新在于它将工具的使用视为一种通用的推理技能,并通过强化学习和自适应学习机制来实现动态的工具编排。与现有的方法相比,AdaReasoner不需要针对特定工具进行专门训练,也不依赖于显式的监督信号。这使得模型能够更好地适应新的工具和任务,并具有更强的泛化能力。此外,Tool-GRPO算法和自适应学习机制的设计使得模型能够自主地发现有用的工具,抑制不相关的工具,并根据任务的需求调整工具的使用频率。
关键设计:Tool-GRPO算法是一种基于策略梯度的强化学习算法,它使用Gumbel-softmax重参数化技巧来优化工具的选择和排序。自适应学习机制使用一个动态的门控机制来调节工具的使用频率。具体来说,模型会根据任务的上下文和中间结果来计算一个门控值,然后使用该门控值来控制工具的输出。损失函数包括一个任务相关的损失和一个工具使用相关的损失。任务相关的损失用于衡量模型在最终任务上的表现,而工具使用相关的损失用于鼓励模型使用有用的工具,并抑制不相关的工具。
🖼️ 关键图片
📊 实验亮点
AdaReasoner在多个具有挑战性的基准测试中取得了最先进的性能。例如,在VSP和Jigsaw任务上,AdaReasoner超越了GPT-5等强大的专有系统。与7B基础模型相比,AdaReasoner平均提高了+24.9%。实验结果表明,AdaReasoner具有强大的工具自适应和泛化能力,能够自主地采用有益的工具,抑制不相关的工具,并根据任务需求调整工具的使用频率。
🎯 应用场景
AdaReasoner具有广泛的应用前景,例如智能助手、机器人导航、图像编辑和科学研究等领域。它可以帮助智能助手更好地理解用户的需求,并利用各种工具来完成复杂的任务。在机器人导航领域,AdaReasoner可以帮助机器人自主地选择和组合不同的传感器和算法,以实现更准确和鲁棒的导航。在图像编辑领域,AdaReasoner可以帮助用户更方便地使用各种图像处理工具,以实现更精细的图像编辑效果。在科学研究领域,AdaReasoner可以帮助科学家更有效地利用各种科学计算工具,以加速科学发现。
📄 摘要(原文)
When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce \textbf{AdaReasoner}, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.