Training Multi-Image Vision Agents via End2End Reinforcement Learning

作者: Chengqi Dong, Chuhuai Yue, Hang He, Rongge Mao, Fenghe Tang, S Kevin Zhou, Zekun Xu, Xiaohan Wang, Jiajun Chai, Guojun Yin

分类: cs.CV, cs.AI

发布日期: 2026-04-06

💡 一句话要点

提出IMAgent，通过端到端强化学习训练多图像视觉Agent，解决多图像QA任务。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉Agent 强化学习 多图像问答 视觉语言模型 工具使用 注意力机制

📋 核心要点

现有基于VLM的Agent在多图像QA任务中受限于单图像输入，限制了其在现实世界的应用。
IMAgent通过端到端强化学习训练视觉Agent，并设计视觉反思和验证工具，增强对图像内容的关注。
实验表明，IMAgent在单/多图像基准测试中达到SOTA性能，并揭示了工具使用对Agent性能的提升。

📝 摘要（中文）

本文提出IMAgent，一个开源的视觉Agent，通过端到端强化学习进行训练，用于细粒度的单/多图像推理。针对视觉语言模型（VLM）在推理过程中逐渐忽略视觉输入的问题，设计了视觉反思和验证工具，使模型能够主动重新关注图像内容。首次从注意力角度揭示了工具使用如何提升Agent性能。通过精心设计的双层运动轨迹掩码策略和工具使用奖励增益，IMAgent通过纯强化学习获得有效的工具使用范式，无需昂贵的监督微调数据。构建了一个具有挑战性的、视觉丰富的多图像QA数据集，以进一步释放VLM的工具使用潜力并填补数据空白。大量实验验证了IMAgent在主流单/多图像基准测试中实现了SOTA性能，并提供了有价值的见解。

🔬 方法详解

问题定义：现有基于视觉语言模型（VLM）的Agent，特别是那些旨在模仿OpenAI O3的“图像思考”能力的Agent，大多仅限于单张图像输入。这严重限制了它们在需要处理多张图像的真实世界问答（QA）任务中的应用。现有的方法缺乏有效利用多图像信息的能力，并且在推理过程中容易忽略视觉输入。

核心思路：IMAgent的核心思路是通过端到端的强化学习，直接训练Agent学会如何有效地利用单张或多张图像进行推理。为了解决VLM在推理过程中逐渐忽略视觉输入的问题，引入了视觉反思和验证工具，促使Agent主动关注并重新审视图像内容。此外，通过精心设计的奖励机制，鼓励Agent学习使用工具，从而提升整体性能。

技术框架：IMAgent的整体框架包含以下几个主要组成部分：1) 基于VLM的Agent，作为核心推理引擎；2) 视觉反思工具，用于重新审视图像内容；3) 视觉验证工具，用于验证推理结果的正确性；4) 强化学习训练模块，用于优化Agent的策略。Agent通过与环境交互，接收图像输入和奖励信号，不断调整自身的行为策略，最终学会如何有效地利用工具进行推理。

关键创新：IMAgent的关键创新在于以下几个方面：1) 端到端的强化学习训练，无需昂贵的监督微调数据；2) 视觉反思和验证工具的设计，有效解决了VLM在推理过程中忽略视觉输入的问题；3) 双层运动轨迹掩码策略和工具使用奖励增益，促进Agent学习有效的工具使用范式；4) 从注意力角度分析工具使用对Agent性能的提升。

关键设计：IMAgent的关键设计包括：1) 双层运动轨迹掩码策略，用于控制Agent的动作序列，避免无效的探索；2) 工具使用奖励增益，用于鼓励Agent使用视觉反思和验证工具；3) 基于多Agent系统构建的视觉丰富多图像QA数据集，用于训练和评估Agent的性能；4) 注意力机制的可视化分析，用于理解工具使用对Agent行为的影响。

🖼️ 关键图片

📊 实验亮点

IMAgent在主流的单图像和多图像QA基准测试中取得了SOTA性能。具体而言，通过端到端强化学习和视觉工具的加持，IMAgent在多图像QA任务上的准确率显著提升，超越了现有基于VLM的Agent。此外，注意力机制的可视化分析表明，工具的使用能够有效引导Agent关注图像中的关键区域，从而提升推理的准确性。

🎯 应用场景

IMAgent在智能客服、自动驾驶、医疗诊断等领域具有广泛的应用前景。例如，在智能客服中，Agent可以利用多张商品图片进行比对，回答用户关于商品差异的问题。在自动驾驶中，Agent可以分析多个摄像头拍摄的图像，进行环境感知和决策。在医疗诊断中，Agent可以分析多张医学影像，辅助医生进行疾病诊断。

📄 摘要（原文）

Recent VLM-based agents aim to replicate OpenAI O3's "thinking with images" via tool use, yet most open-source methods restrict inputs to a single image, limiting their applicability to real-world multi-image QA tasks. To address this gap, we propose IMAgent, an open-source visual agent trained with end-to-end reinforcement learning for fine-grained single/multi-image reasoning. During inference, VLMs tend to gradually neglect visual inputs; to mitigate this issue, we design two dedicated tools for visual reflection and verification, enabling the model to actively refocus attention on image content. Beyond that, we, for the first time, reveal how tool usage enhances agent performance from an attention perspective. Equipped with a carefully designed two-layer motion trajectory masking strategy and tool-use reward gain, IMAgent acquires an effective tool-use paradigm through pure reinforcement learning, eliminating the need for costly supervised fine-tuning data. To further unleash the inherent tool-usage potential of the base VLM and fill data gaps, we construct a challenging, visually enriched multi-image QA dataset via multi-agent system. Extensive experiments validate that IMAgent achieves SOTA performance across mainstream single and multi-image benchmarks, and our in-depth analysis offers actionable insights for the community. Code and data will be released soon.

Training Multi-Image Vision Agents via End2End Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理