Visual Agentic Reinforcement Fine-Tuning

作者: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang

分类: cs.CV, cs.AI

发布日期: 2025-05-20

备注: project url: https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

💡 一句话要点

提出Visual-ARFT，提升LVLM在多模态Agent任务中的推理和泛化能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 强化学习 多模态Agent 工具使用 图像推理

📋 核心要点

现有LVLM在多模态Agent任务中，缺乏利用外部工具进行图像推理和信息检索的能力，限制了其应用。
Visual-ARFT通过强化学习微调LVLM，使其能够自适应地使用网络搜索和代码工具进行图像处理和分析。
实验表明，Visual-ARFT在多模态Agent基准测试和多跳QA任务上均显著优于基线模型，并超越GPT-4o。

📝 摘要（中文）

大型推理模型（如OpenAI的o3）的一个关键趋势是其原生的Agent能力，即利用外部工具（如Web浏览器进行搜索，编写/执行代码进行图像处理）来进行图像推理。在开源研究社区中，虽然纯语言Agent能力（如函数调用和工具集成）取得了显著进展，但涉及真正图像推理的多模态Agent能力及其相应的基准测试仍有待探索。本文强调了视觉Agent强化微调（Visual-ARFT）在使大型视觉语言模型（LVLM）具备灵活和自适应推理能力方面的有效性。通过Visual-ARFT，开源LVLM获得了浏览网站以获取实时信息更新以及编写代码以通过裁剪、旋转和其他图像处理技术来操作和分析输入图像的能力。我们还提出了一个多模态Agent工具基准（MAT），包含MAT-Search和MAT-Coding两个设置，旨在评估LVLM的Agent搜索和编码能力。实验结果表明，Visual-ARFT在MAT-Coding上比基线提高了+18.6% F1 / +13.0% EM，在MAT-Search上提高了+10.3% F1 / +8.7% EM，最终超过了GPT-4o。Visual-ARFT还在现有的多跳QA基准（如2Wiki和HotpotQA）上实现了+29.3 F1% / +25.9% EM的提升，展示了强大的泛化能力。我们的研究结果表明，Visual-ARFT为构建强大且通用的多模态Agent提供了一条有希望的途径。

🔬 方法详解

问题定义：论文旨在解决大型视觉语言模型（LVLM）在多模态Agent任务中，缺乏有效利用外部工具（如网络搜索和代码执行）进行图像推理和信息检索的问题。现有方法通常侧重于纯语言Agent能力，而忽略了图像作为重要信息载体的作用，导致LVLM在处理复杂视觉任务时能力受限。

核心思路：论文的核心思路是利用强化学习微调（Reinforcement Fine-Tuning）LVLM，使其能够根据任务需求，自适应地选择和使用外部工具。通过奖励机制，鼓励LVLM学习如何有效地利用网络搜索获取实时信息，以及编写代码进行图像处理和分析，从而提升其多模态推理能力。

技术框架：Visual-ARFT的技术框架主要包含以下几个模块：1) LVLM作为Agent，接收任务指令和图像输入；2) 工具选择模块，根据任务需求选择合适的外部工具（如网络搜索、代码执行）；3) 工具执行模块，调用选定的工具并获取结果；4) 状态更新模块，将工具执行结果反馈给LVLM，更新其状态；5) 奖励函数，根据任务完成情况给予LVLM奖励或惩罚，引导其学习最优策略。整个过程通过强化学习算法进行优化。

关键创新：最重要的技术创新点在于将强化学习与LVLM相结合，使其具备了自适应地利用外部工具进行多模态推理的能力。与现有方法相比，Visual-ARFT能够更灵活地处理复杂的视觉任务，并能够利用实时信息进行决策。

关键设计：关键设计包括：1) 奖励函数的设置，需要合理地衡量任务完成情况和工具使用效率；2) 工具选择模块的设计，需要保证能够准确地选择合适的工具；3) 状态表示的设计，需要能够充分地表达任务相关的信息。

🖼️ 关键图片

📊 实验亮点

Visual-ARFT在MAT-Coding和MAT-Search基准测试中分别取得了+18.6% F1 / +13.0% EM和+10.3% F1 / +8.7% EM的显著提升，超越了GPT-4o。此外，在2Wiki和HotpotQA等多跳QA基准测试中，Visual-ARFT也实现了+29.3 F1% / +25.9% EM的提升，表明其具有强大的泛化能力。

🎯 应用场景

Visual-ARFT具有广泛的应用前景，例如智能客服、自动驾驶、医疗诊断等领域。在智能客服中，可以利用Visual-ARFT进行图像识别和问题解答；在自动驾驶中，可以利用Visual-ARFT进行交通标志识别和路况分析；在医疗诊断中，可以利用Visual-ARFT进行医学影像分析和疾病诊断。该研究有助于提升人工智能系统的智能化水平和应用范围。

📄 摘要（原文）

A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native agentic ability to use external tools such as web browsers for searching and writing/executing code for image manipulation to think with images. In the open-source research community, while significant progress has been made in language-only agentic abilities such as function calling and tool integration, the development of multi-modal agentic capabilities that involve truly thinking with images, and their corresponding benchmarks, are still less explored. This work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the ability to browse websites for real-time information updates and write code to manipulate and analyze input images through cropping, rotation, and other image processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT) with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs' agentic search and coding abilities. Our experimental results demonstrate that Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and +10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities. Our findings suggest that Visual-ARFT offers a promising path toward building robust and generalizable multimodal agents.

Visual Agentic Reinforcement Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理