Visual Agentic Reinforcement Fine-Tuning
作者: Ziyu Liu, Yuhang Zang, Yushan Zou, Zijian Liang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
分类: cs.CV, cs.AI
发布日期: 2025-05-20
备注: project url: https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT
💡 一句话要点
提出Visual-ARFT,提升LVLM在多模态Agent任务中的推理和泛化能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 强化学习 多模态Agent 工具使用 图像推理
📋 核心要点
- 现有LVLM在多模态Agent任务中,缺乏利用外部工具进行图像推理和信息检索的能力,限制了其应用。
- Visual-ARFT通过强化学习微调LVLM,使其能够自适应地使用网络搜索和代码工具进行图像处理和分析。
- 实验表明,Visual-ARFT在多模态Agent基准测试和多跳QA任务上均显著优于基线模型,并超越GPT-4o。
📝 摘要(中文)
大型推理模型(如OpenAI的o3)的一个关键趋势是其原生的Agent能力,即利用外部工具(如Web浏览器进行搜索,编写/执行代码进行图像处理)来进行图像推理。在开源研究社区中,虽然纯语言Agent能力(如函数调用和工具集成)取得了显著进展,但涉及真正图像推理的多模态Agent能力及其相应的基准测试仍有待探索。本文强调了视觉Agent强化微调(Visual-ARFT)在使大型视觉语言模型(LVLM)具备灵活和自适应推理能力方面的有效性。通过Visual-ARFT,开源LVLM获得了浏览网站以获取实时信息更新以及编写代码以通过裁剪、旋转和其他图像处理技术来操作和分析输入图像的能力。我们还提出了一个多模态Agent工具基准(MAT),包含MAT-Search和MAT-Coding两个设置,旨在评估LVLM的Agent搜索和编码能力。实验结果表明,Visual-ARFT在MAT-Coding上比基线提高了+18.6% F1 / +13.0% EM,在MAT-Search上提高了+10.3% F1 / +8.7% EM,最终超过了GPT-4o。Visual-ARFT还在现有的多跳QA基准(如2Wiki和HotpotQA)上实现了+29.3 F1% / +25.9% EM的提升,展示了强大的泛化能力。我们的研究结果表明,Visual-ARFT为构建强大且通用的多模态Agent提供了一条有希望的途径。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLM)在多模态Agent任务中,缺乏有效利用外部工具(如网络搜索和代码执行)进行图像推理和信息检索的问题。现有方法通常侧重于纯语言Agent能力,而忽略了图像作为重要信息载体的作用,导致LVLM在处理复杂视觉任务时能力受限。
核心思路:论文的核心思路是利用强化学习微调(Reinforcement Fine-Tuning)LVLM,使其能够根据任务需求,自适应地选择和使用外部工具。通过奖励机制,鼓励LVLM学习如何有效地利用网络搜索获取实时信息,以及编写代码进行图像处理和分析,从而提升其多模态推理能力。
技术框架:Visual-ARFT的技术框架主要包含以下几个模块:1) LVLM作为Agent,接收任务指令和图像输入;2) 工具选择模块,根据任务需求选择合适的外部工具(如网络搜索、代码执行);3) 工具执行模块,调用选定的工具并获取结果;4) 状态更新模块,将工具执行结果反馈给LVLM,更新其状态;5) 奖励函数,根据任务完成情况给予LVLM奖励或惩罚,引导其学习最优策略。整个过程通过强化学习算法进行优化。
关键创新:最重要的技术创新点在于将强化学习与LVLM相结合,使其具备了自适应地利用外部工具进行多模态推理的能力。与现有方法相比,Visual-ARFT能够更灵活地处理复杂的视觉任务,并能够利用实时信息进行决策。
关键设计:关键设计包括:1) 奖励函数的设置,需要合理地衡量任务完成情况和工具使用效率;2) 工具选择模块的设计,需要保证能够准确地选择合适的工具;3) 状态表示的设计,需要能够充分地表达任务相关的信息。
🖼️ 关键图片
📊 实验亮点
Visual-ARFT在MAT-Coding和MAT-Search基准测试中分别取得了+18.6% F1 / +13.0% EM和+10.3% F1 / +8.7% EM的显著提升,超越了GPT-4o。此外,在2Wiki和HotpotQA等多跳QA基准测试中,Visual-ARFT也实现了+29.3 F1% / +25.9% EM的提升,表明其具有强大的泛化能力。
🎯 应用场景
Visual-ARFT具有广泛的应用前景,例如智能客服、自动驾驶、医疗诊断等领域。在智能客服中,可以利用Visual-ARFT进行图像识别和问题解答;在自动驾驶中,可以利用Visual-ARFT进行交通标志识别和路况分析;在医疗诊断中,可以利用Visual-ARFT进行医学影像分析和疾病诊断。该研究有助于提升人工智能系统的智能化水平和应用范围。
📄 摘要(原文)
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native agentic ability to use external tools such as web browsers for searching and writing/executing code for image manipulation to think with images. In the open-source research community, while significant progress has been made in language-only agentic abilities such as function calling and tool integration, the development of multi-modal agentic capabilities that involve truly thinking with images, and their corresponding benchmarks, are still less explored. This work highlights the effectiveness of Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) for enabling flexible and adaptive reasoning abilities for Large Vision-Language Models (LVLMs). With Visual-ARFT, open-source LVLMs gain the ability to browse websites for real-time information updates and write code to manipulate and analyze input images through cropping, rotation, and other image processing techniques. We also present a Multi-modal Agentic Tool Bench (MAT) with two settings (MAT-Search and MAT-Coding) designed to evaluate LVLMs' agentic search and coding abilities. Our experimental results demonstrate that Visual-ARFT outperforms its baseline by +18.6% F1 / +13.0% EM on MAT-Coding and +10.3% F1 / +8.7% EM on MAT-Search, ultimately surpassing GPT-4o. Visual-ARFT also achieves +29.3 F1% / +25.9% EM gains on existing multi-hop QA benchmarks such as 2Wiki and HotpotQA, demonstrating strong generalization capabilities. Our findings suggest that Visual-ARFT offers a promising path toward building robust and generalizable multimodal agents.