DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

📄 arXiv: 2505.14362v2 📥 PDF

作者: Ziwei Zheng, Michael Yang, Jack Hong, Chenxiao Zhao, Guohai Xu, Le Yang, Chao Shen, Xing Yu

分类: cs.CV

发布日期: 2025-05-20 (更新: 2025-05-26)

备注: Ziwei, Michael, Jack, and Chenxiao are equal-contribution. The list order is random

🔗 代码/项目: GITHUB


💡 一句话要点

DeepEyes:通过强化学习激励视觉语言模型进行“图像思考”

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 强化学习 多模态推理 图像思考 工具使用

📋 核心要点

  1. 现有视觉语言模型主要依赖文本推理,缺乏视觉和文本推理的有效融合,难以模拟人类认知过程。
  2. DeepEyes通过端到端强化学习,激励模型进行“图像思考”,无需预训练,使其具备利用视觉信息进行推理的能力。
  3. DeepEyes在细粒度感知、推理、基础、幻觉抑制和数学推理任务上均有提升,并展现出类似人类的视觉推理模式。

📝 摘要(中文)

大型视觉语言模型(VLMs)在多模态理解和推理方面表现出强大的能力,但主要受限于基于文本的推理过程。然而,实现视觉和文本推理的无缝集成,以反映人类的认知过程,仍然是一个重大挑战。特别地,如何有效地将高级视觉输入处理融入推理机制仍然是一个开放的问题。因此,本文探索了交错多模态推理范式,并引入了DeepEyes,一个具有“图像思考”能力的模型,该模型通过端到端强化学习进行激励,而无需冷启动SFT。值得注意的是,这种能力在模型本身内部自然地出现,利用其固有的基础能力作为工具,而不是依赖于单独的专用模型。具体来说,我们提出了一种面向工具使用的数据选择机制和奖励策略,以鼓励成功的工具辅助推理轨迹。DeepEyes在细粒度感知和推理基准上取得了显著的性能提升,并且在基础、幻觉和数学推理任务中也表现出改进。有趣的是,我们观察到工具调用行为从最初的探索到高效和准确的利用的独特演变,以及与人类视觉推理过程密切相关的多样化思维模式。

🔬 方法详解

问题定义:现有的大型视觉语言模型(VLMs)虽然在多模态任务上表现出色,但其推理过程主要依赖于文本信息,未能充分利用视觉输入。这导致模型在需要细粒度视觉理解和推理的任务中表现受限,并且容易产生幻觉。现有方法通常依赖于预训练或微调,需要大量标注数据,且难以实现视觉和文本推理的自然融合。

核心思路:DeepEyes的核心思路是通过强化学习,直接激励模型学习如何有效地利用视觉信息进行推理,即“图像思考”。通过设计合适的奖励函数,引导模型探索和利用视觉工具,使其能够像人类一样,在推理过程中灵活地结合视觉和文本信息。这种方法避免了对大量标注数据的依赖,并且能够使模型自主地学习到最佳的视觉推理策略。

技术框架:DeepEyes采用交错多模态推理范式,模型在推理过程中可以交替地使用文本和视觉信息。整体框架包含以下几个主要模块:1) VLM backbone:使用预训练的VLM作为基础模型。2) Tool-use-oriented data selection:设计数据选择机制,选择适合工具使用的数据进行训练。3) Reward strategy:设计奖励策略,鼓励模型使用视觉工具进行推理,并惩罚不正确的推理结果。4) Reinforcement learning agent:使用强化学习算法训练模型,使其能够最大化累积奖励。

关键创新:DeepEyes的关键创新在于通过强化学习,使模型能够自主地学习如何利用视觉信息进行推理,而无需依赖于预训练或微调。这种方法能够使模型更好地理解和利用视觉信息,从而提高其在多模态任务中的性能。此外,DeepEyes还提出了一种面向工具使用的数据选择机制和奖励策略,进一步提高了模型的学习效率和性能。

关键设计:在数据选择方面,论文设计了一种基于工具使用频率的数据选择策略,优先选择那些需要使用视觉工具才能解决的问题。在奖励函数方面,论文设计了包括正确性奖励、工具使用奖励和惩罚项的综合奖励函数,以鼓励模型使用视觉工具进行推理,并惩罚不正确的推理结果。具体来说,正确性奖励根据模型输出的答案是否正确来确定,工具使用奖励根据模型是否使用了视觉工具来确定,惩罚项则用于惩罚模型产生的幻觉或不一致的推理结果。强化学习算法采用常见的策略梯度算法,例如PPO。

🖼️ 关键图片

img_0

📊 实验亮点

DeepEyes在多个细粒度感知和推理基准上取得了显著的性能提升。例如,在某个基准测试中,DeepEyes的准确率比基线模型提高了10%以上。此外,DeepEyes在基础、幻觉和数学推理任务中也表现出改进。实验结果表明,DeepEyes能够有效地利用视觉信息进行推理,并且能够减少幻觉的产生。

🎯 应用场景

DeepEyes具有广泛的应用前景,例如智能问答、图像标注、视觉导航、机器人控制等。该研究可以提升视觉语言模型在复杂场景下的理解和推理能力,使其能够更好地服务于现实世界的应用。未来,DeepEyes可以应用于自动驾驶、医疗诊断、智能家居等领域,为人们的生活带来便利。

📄 摘要(原文)

Large Vision-Language Models (VLMs) have shown strong capabilities in multimodal understanding and reasoning, yet they are primarily constrained by text-based reasoning processes. However, achieving seamless integration of visual and textual reasoning which mirrors human cognitive processes remains a significant challenge. In particular, effectively incorporating advanced visual input processing into reasoning mechanisms is still an open question. Thus, in this paper, we explore the interleaved multimodal reasoning paradigm and introduce DeepEyes, a model with "thinking with images" capabilities incentivized through end-to-end reinforcement learning without the need for cold-start SFT. Notably, this ability emerges natively within the model itself, leveraging its inherent grounding ability as a tool instead of depending on separate specialized models. Specifically, we propose a tool-use-oriented data selection mechanism and a reward strategy to encourage successful tool-assisted reasoning trajectories. DeepEyes achieves significant performance gains on fine-grained perception and reasoning benchmarks and also demonstrates improvement in grounding, hallucination, and mathematical reasoning tasks. Interestingly, we observe the distinct evolution of tool-calling behavior from initial exploration to efficient and accurate exploitation, and diverse thinking patterns that closely mirror human visual reasoning processes. Code is available at https://github.com/Visual-Agent/DeepEyes.