OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

📄 arXiv: 2505.08617v2 📥 PDF

作者: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng

分类: cs.CV

发布日期: 2025-05-13 (更新: 2025-07-09)

备注: Work in progress


💡 一句话要点

提出OpenThinkIMG以解决视觉工具增强学习的标准化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉工具 强化学习 大型视觉语言模型 动态推理 工具增强学习

📋 核心要点

  1. 当前大型视觉语言模型在动态工具调用方面缺乏有效的学习机制,导致其适应性不足。
  2. 提出OpenThinkIMG框架,结合标准化视觉工具接口与V-ToolRL强化学习,提升LVLMs的工具使用策略学习能力。
  3. 实验结果表明,RL训练的代理在图表推理任务中表现优异,较SFT初始化的模型提升28.83分,超越多个基线模型。

📝 摘要(中文)

人类能够灵活利用互动视觉认知进行复杂问题解决,而使大型视觉语言模型(LVLMs)学习类似的适应性行为仍然面临挑战。当前缺乏标准化基础设施,阻碍了多样化工具的整合、丰富交互数据的生成以及有效训练强健代理。为了解决这些问题,我们提出了OpenThinkIMG,这是第一个开源的、全面的端到端框架,用于工具增强的LVLMs。该框架具有标准化的视觉工具接口、可扩展的轨迹生成和灵活的训练环境。此外,考虑到静态演示的监督微调(SFT)对动态工具调用的策略泛化能力有限,我们提出了一种新的强化学习框架V-ToolRL,旨在训练LVLMs学习调用外部视觉工具的适应性策略。我们在具有挑战性的图表推理任务上对V-ToolRL进行了实证验证,结果显示,基于Qwen2-VL-2B的RL训练代理显著优于其SFT初始化的对手,且超越了现有的监督工具学习基线。

🔬 方法详解

问题定义:本论文旨在解决大型视觉语言模型在动态工具调用中的适应性不足问题。现有方法主要依赖静态演示的监督微调,导致策略泛化能力有限,无法有效应对复杂的视觉工具交互场景。

核心思路:论文提出OpenThinkIMG框架,通过标准化的视觉工具接口和强化学习框架V-ToolRL,训练LVLMs学习适应性策略。V-ToolRL通过直接优化任务成功率,促使模型自主发现最佳工具使用策略。

技术框架:OpenThinkIMG框架包含三个主要模块:标准化视觉工具接口、可扩展的轨迹生成模块和灵活的训练环境。轨迹生成模块为策略初始化提供丰富的交互数据,训练环境则支持多种工具的动态调用。

关键创新:V-ToolRL是本研究的核心创新,允许LVLMs在与工具交互中自我优化,显著提升了模型的任务成功率。这一方法与传统的静态微调方法本质上不同,后者无法适应动态变化的工具使用场景。

关键设计:在V-ToolRL中,设计了特定的奖励机制以反馈工具交互的成功与否,同时采用了适应性损失函数以提高模型的泛化能力。网络结构上,基于Qwen2-VL-2B进行强化学习训练,确保了模型在复杂任务中的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,基于V-ToolRL训练的代理在图表推理任务中表现优异,较SFT初始化的模型提升了28.83分,超越了现有的监督工具学习基线(如Taco和CogCom)平均提升12.7分,并且在准确性上超越了GPT-4.1模型8.68分,验证了方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化数据分析和教育技术等。通过增强视觉工具的使用能力,OpenThinkIMG能够帮助AI代理更好地理解和处理复杂视觉信息,从而在实际应用中提供更高效的解决方案。未来,该框架有望推动动态视觉推理的发展,促进更智能的AI系统的构建。

📄 摘要(原文)

While humans can flexibly leverage interactive visual cognition for complex problem-solving, enabling Large Vision-Language Models (LVLMs) to learn similarly adaptive behaviors with visual tools remains challenging. A significant hurdle is the current lack of standardized infrastructure, which hinders integrating diverse tools, generating rich interaction data, and training robust agents effectively. To address these gaps, we introduce OpenThinkIMG, the first open-source, comprehensive end-to-end framework for tool-augmented LVLMs. It features standardized vision tool interfaces, scalable trajectory generation for policy initialization, and a flexible training environment. Furthermore, considering supervised fine-tuning (SFT) on static demonstrations offers limited policy generalization for dynamic tool invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL to train LVLMs to learn adaptive policies for invoking external vision tools. V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies by directly optimizing for task success using feedback from tool interactions. We empirically validate V-ToolRL on challenging chart reasoning tasks. Our RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its SFT-initialized counterpart (+28.83 points) and surpasses established supervised tool-learning baselines like Taco and CogCom by an average of +12.7 points. Notably, it also surpasses prominent closed-source models like GPT-4.1 by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational framework for advancing dynamic, tool-augmented visual reasoning, helping the community develop AI agents that can genuinely "think with images".