DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

📄 arXiv: 2505.24025v2 📥 PDF

作者: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren

分类: cs.CV, cs.AI

发布日期: 2025-05-29 (更新: 2025-08-01)


💡 一句话要点

DINO-R1:利用强化学习提升视觉基础模型的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉基础模型 推理能力 强化学习 组相对查询优化 视觉提示 目标检测 开放词汇

📋 核心要点

  1. 现有视觉基础模型,如DINO系列,在推理能力方面存在明显不足,未能充分挖掘其潜力。
  2. DINO-R1提出组相对查询优化(GRQO)方法,通过强化学习,激励模型学习视觉上下文推理能力。
  3. 实验表明,DINO-R1在多个数据集上显著优于监督微调方法,展现了更强的泛化能力。

📝 摘要(中文)

本文提出了DINO-R1,首次尝试使用强化学习来激励视觉基础模型的视觉上下文推理能力。借鉴大型语言模型(如DeepSeek-R1)在推理能力上的成功,DINO-R1引入了一种新的强化学习训练策略——组相对查询优化(GRQO),专门为基于查询的表征模型设计。GRQO基于组归一化的对齐质量计算查询级别的奖励。此外,应用KL散度正则化来稳定目标分布,从而减少训练的不稳定性。这种联合优化实现了跨查询的密集和富有表现力的监督,同时减轻了过拟合和分布漂移。基于Grounding-DINO,我们训练了一系列DINO-R1模型,集成了视觉提示编码器和视觉引导的查询选择机制。在COCO、LVIS和ODinW上的大量实验表明,DINO-R1显著优于有监督的微调基线,在开放词汇和封闭集视觉提示场景中都实现了强大的泛化能力。

🔬 方法详解

问题定义:现有视觉基础模型,特别是像DINO这样的表征模型,缺乏像大型语言模型那样强大的推理能力。虽然大型语言模型可以通过强化学习进行微调以获得卓越的推理性能,但视觉模型在这方面的探索还不够充分。因此,如何有效地提升视觉基础模型的推理能力是一个关键问题。

核心思路:DINO-R1的核心思路是利用强化学习来激励视觉基础模型的推理能力。具体来说,通过设计合适的奖励函数,引导模型学习如何更好地利用视觉上下文信息进行推理。这种方法借鉴了大型语言模型中基于强化学习的微调框架,并将其应用于视觉领域。

技术框架:DINO-R1建立在Grounding-DINO之上,并引入了视觉提示编码器和视觉引导的查询选择机制。整体流程包括:首先,使用视觉提示编码器对输入图像进行编码;然后,通过视觉引导的查询选择机制选择相关的查询;最后,利用组相对查询优化(GRQO)方法进行训练,优化模型的推理能力。

关键创新:DINO-R1的关键创新在于提出了组相对查询优化(GRQO)方法。GRQO是一种专门为基于查询的表征模型设计的强化学习训练策略,它基于组归一化的对齐质量计算查询级别的奖励。这种方法能够更有效地监督模型的训练,并提高模型的推理能力。与传统的监督学习方法相比,GRQO能够更好地利用视觉上下文信息,从而提高模型的泛化能力。

关键设计:GRQO的关键设计包括:1) 使用组归一化来提高奖励的稳定性;2) 应用KL散度正则化来稳定目标分布,减少训练的不稳定性;3) 设计视觉提示编码器和视觉引导的查询选择机制,以更好地利用视觉上下文信息。此外,损失函数的设计也至关重要,它需要能够有效地引导模型学习如何进行推理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DINO-R1在COCO、LVIS和ODinW数据集上进行了广泛的实验,结果表明,DINO-R1显著优于有监督的微调基线。例如,在开放词汇视觉提示场景中,DINO-R1取得了显著的性能提升,证明了其强大的泛化能力。这些实验结果表明,DINO-R1是一种有效的提升视觉基础模型推理能力的方法。

🎯 应用场景

DINO-R1的研究成果可应用于各种视觉任务,如目标检测、图像分割、视觉问答等。通过提升视觉基础模型的推理能力,可以提高这些任务的性能和泛化能力。此外,该研究还可以促进视觉基础模型在机器人、自动驾驶等领域的应用,使机器能够更好地理解和利用视觉信息。

📄 摘要(原文)

The recent explosive interest in the reasoning capabilities of large language models, such as DeepSeek-R1, has demonstrated remarkable success through reinforcement learning-based fine-tuning frameworks, exemplified by methods like Group Relative Policy Optimization (GRPO). However, such reasoning abilities remain underexplored and notably absent in vision foundation models, including representation models like the DINO series. In this work, we propose \textbf{DINO-R1}, the first such attempt to incentivize visual in-context reasoning capabilities of vision foundation models using reinforcement learning. Specifically, DINO-R1 introduces \textbf{Group Relative Query Optimization (GRQO)}, a novel reinforcement-style training strategy explicitly designed for query-based representation models, which computes query-level rewards based on group-normalized alignment quality. We also apply KL-regularization to stabilize the objectness distribution to reduce the training instability. This joint optimization enables dense and expressive supervision across queries while mitigating overfitting and distributional drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models that integrate a visual prompt encoder and a visual-guided query selection mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving strong generalization in both open-vocabulary and closed-set visual prompting scenarios.