Attend to Evidence: Evidence-Anchored Spatial Attention Supervision for Multimodal RLVR

作者: Ruina Hu, Chen Wang, Lai Wei, Jionghao Bai, Bin Yu, Weiran Huang, Kai Wang, Yue Wang

分类: cs.CV, cs.CL

发布日期: 2026-05-29

💡 一句话要点

提出EASE：通过证据锚定的空间注意力监督提升多模态RLVR性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉语言模型 强化学习 可验证奖励 注意力机制 视觉证据 空间注意力监督

📋 核心要点

现有RLVR方法仅依赖最终答案奖励，忽略了视觉证据，导致模型可能依赖语言先验或偶然猜测。
EASE方法通过将标注的证据区域转化为视觉token目标，引导模型在高奖励轨迹上的视觉注意力。
实验表明，EASE在多个VLM模型上，显著提升了感知、幻觉、视觉数学和多模态推理任务的性能。

📝 摘要（中文）

本文提出了一种名为EASE（Evidence-Anchored Spatial Attention，证据锚定的空间注意力）的方法，用于改进具有可验证奖励的强化学习（RLVR）在视觉语言模型（VLMs）中的应用。传统的RLVR仅依赖最终答案的奖励进行优化，无法区分模型是基于相关视觉证据还是语言先验或偶然猜测做出正确回答。EASE通过引入视觉证据过程监督来增强多模态RLVR。它将标注的证据区域转换为平滑的视觉token目标，并在强化学习训练期间，仅在高奖励轨迹上，使用该目标来引导响应到图像的注意力。标注仅作为特权训练标签使用，推理时仅需原始图像和问题。在Qwen2.5-VL-7B、Qwen3-VL-4B和Qwen3-VL-8B模型上，EASE在感知、幻觉、视觉数学和多模态推理基准测试中，平均得分比DAPO提高了2.5到3.1分。诊断和消融实验表明，EASE能更好地将视觉注意力与标注的证据区域对齐。

🔬 方法详解

问题定义：现有的基于可验证奖励的强化学习（RLVR）方法在训练视觉语言模型（VLMs）时，仅仅依赖于最终答案的奖励信号。这种方式的缺陷在于，模型无法得知哪些图像区域是支持答案的关键证据。对于需要视觉 grounding 的问题，模型可能通过语言先验知识或者偶然的猜测得到正确答案，而并非真正理解图像内容。因此，如何让模型关注到图像中与问题相关的区域，是当前方法面临的痛点。

核心思路：EASE的核心思路是引入视觉证据的过程监督，即在训练过程中，利用人工标注的证据区域来引导模型的视觉注意力。具体来说，EASE将标注的证据区域转化为一个平滑的视觉token目标，并利用这个目标来监督模型在生成答案时对图像的关注程度。通过这种方式，模型能够学习到如何根据图像中的关键区域来生成答案，从而提高模型的视觉 grounding 能力。

技术框架：EASE方法在标准的RLVR框架基础上，增加了一个证据锚定的空间注意力监督模块。整体流程如下：1. 输入图像和问题；2. VLM生成答案；3. 根据答案计算奖励；4. 如果奖励较高，则利用标注的证据区域生成视觉token目标；5. 使用视觉token目标监督模型对图像的注意力；6. 更新模型参数。该框架的关键在于如何将标注的证据区域转化为有效的监督信号，以及如何将这个监督信号融入到RLVR的训练过程中。

关键创新：EASE方法最重要的创新点在于引入了证据锚定的空间注意力监督。与传统的RLVR方法相比，EASE不仅关注最终答案的正确性，还关注模型是否关注了图像中与问题相关的区域。这种过程监督的方式能够有效地提高模型的视觉 grounding 能力，并避免模型依赖语言先验知识或者偶然的猜测。

关键设计：EASE的关键设计包括：1. 将标注的证据区域转化为平滑的视觉token目标。具体来说，EASE使用高斯核对标注区域进行平滑处理，然后将平滑后的区域作为视觉token目标。2. 使用KL散度损失函数来衡量模型对图像的注意力分布与视觉token目标之间的差异。3. 只在高奖励轨迹上进行注意力监督，避免对错误答案的过度惩罚。4. 在推理阶段，EASE不需要任何额外的标注信息，只需要原始图像和问题即可。

🖼️ 关键图片

📊 实验亮点

EASE在Qwen2.5-VL-7B、Qwen3-VL-4B和Qwen3-VL-8B等多个VLM模型上进行了实验，结果表明，EASE在感知、幻觉、视觉数学和多模态推理等基准测试中，平均得分比DAPO提高了2.5到3.1分。消融实验表明，EASE的性能提升主要来自于证据锚定的空间注意力监督。诊断实验表明，EASE能够更好地将视觉注意力与标注的证据区域对齐。

🎯 应用场景

EASE方法可以应用于各种需要视觉语言理解的任务，例如视觉问答、图像描述、视觉推理等。该方法能够提高模型对图像内容的理解能力，并减少模型对语言先验知识的依赖。在实际应用中，EASE可以用于开发更智能的视觉助手、更可靠的图像搜索引擎以及更强大的多模态交互系统。未来，EASE有望在医疗影像分析、自动驾驶等领域发挥重要作用。

📄 摘要（原文）

Reinforcement learning with verifiable rewards (RLVR) improves vision-language models (VLMs) by optimizing outcome rewards derived from final answers. However, such outcome-only rewards do not tell the model which image regions justify an answer. For questions that require visual grounding, these rewards cannot distinguish responses supported by relevant visual evidence from those produced by language-prior shortcuts or lucky guesses. We introduce EASE (Evidence-Anchored Spatial Attention), which augments multimodal RLVR with visual-evidence process supervision. EASE converts annotated evidence regions into a smoothed visual-token target and uses it to guide response-to-image attention during RL training, but only on high-reward trajectories. The annotations are used solely as privileged training labels, while inference requires only the original image and question. Across Qwen2.5-VL-7B, Qwen3-VL-4B, and Qwen3-VL-8B, EASE raises average scores over DAPO by 2.5 to 3.1 points on perception, hallucination, visual math, and multimodal reasoning benchmarks. Diagnostics and ablations show that EASE better aligns visual attention with annotated evidence regions.

Attend to Evidence: Evidence-Anchored Spatial Attention Supervision for Multimodal RLVR

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理