Faithful-MR1: Faithful Multimodal Reasoning via Anchoring and Reinforcing Visual Attention

📄 arXiv: 2605.22072v1 📥 PDF

作者: Changyuan Tian, Zhicong Lu, Huaxing Liu, Xiang Wang, Shuai Li, Yu Chen, Wenqian Lv, Zichuan Lin, Juncheng Diao, Deheng Ye

分类: cs.CL, cs.CV

发布日期: 2026-05-21

备注: 20 pages, 7 figures, 3 tables. Preprint


💡 一句话要点

提出Faithful-MR1框架,通过锚定和强化视觉注意力提升多模态推理的忠实性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 视觉注意力 强化学习 忠实性 反事实干预

📋 核心要点

  1. 现有MLLM在多模态推理中存在忠实性问题,即无法准确感知和利用视觉证据,导致推理结果不佳。
  2. Faithful-MR1通过锚定视觉注意力到图像区域,并强化对因果相关区域的关注,来解决忠实性问题。
  3. 实验表明,Faithful-MR1在多模态推理任务上优于现有基线,且使用更少的数据,证明了其有效性。

📝 摘要(中文)

强化学习与可验证奖励(RLVR)已成为提升大型语言模型复杂推理能力的一种有前景的范式,最近的工作将其扩展到多模态大型语言模型(MLLM)。然而,这种迁移带来了一个忠实性挑战:忠实地感知任务相关的视觉证据,并在推理过程中忠实地使用这些证据。这导致多模态基准测试上的收益不尽如人意。具体来说,现有的感知监督通常基于文本描述,而不是直接作用于图像区域,并且对忠实使用在很大程度上被忽视,暴露了感知-推理脱节的问题,即正确感知的证据在推理过程中被丢弃或否定。为了弥合这些差距,我们提出了Faithful-MR1,一个训练框架,通过锚定和强化视觉注意力来解决忠实多模态推理的两个方面。锚定阶段将感知转化为一个显式的预推理子任务,直接监督一个专用的 token的注意力,使其关注图像区域,而不是通过文本描述。强化阶段通过反事实图像干预来暴露忠实使用,奖励那些将视觉注意力集中在视觉因果相关的区域的答案正确的轨迹。大量的实验表明,Faithful-MR1在Qwen2.5-VL-Instruct 3B和7B骨干网络上都优于最近的多模态推理基线,同时使用的数据量大大减少。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在进行复杂推理时,无法忠实地感知和利用视觉信息的问题。现有方法通常依赖于文本描述进行视觉感知监督,而非直接作用于图像区域,导致感知结果与实际图像内容存在偏差。此外,现有方法往往忽略了对视觉信息在推理过程中忠实使用的监督,使得模型可能丢弃或否定正确感知的视觉证据,造成感知与推理的脱节。

核心思路:Faithful-MR1的核心思路是通过“锚定”和“强化”视觉注意力,来提升MLLM在多模态推理中的忠实性。锚定阶段旨在确保模型能够准确地感知图像中的关键区域,而强化阶段则旨在确保模型在推理过程中能够忠实地利用这些感知到的视觉信息。通过将感知过程显式地转化为一个预推理子任务,并对视觉注意力的使用进行因果干预,Faithful-MR1能够有效地弥合感知与推理之间的鸿沟。

技术框架:Faithful-MR1的训练框架包含两个主要阶段:锚定阶段和强化阶段。在锚定阶段,模型需要学习将一个专用的 token的注意力直接锚定到图像区域,而不是通过文本描述。这通过监督 token的注意力分布来实现,使其与图像区域的显著性或相关性相匹配。在强化阶段,模型通过反事实图像干预来学习忠实地使用视觉信息。具体来说,通过对图像进行微小的修改,观察模型推理结果的变化,并奖励那些将视觉注意力集中在因果相关的区域的轨迹。

关键创新:Faithful-MR1的关键创新在于其对视觉注意力的双重监督机制:锚定和强化。锚定阶段通过直接监督 token的注意力分布,确保模型能够准确地感知图像中的关键区域。强化阶段通过反事实图像干预,鼓励模型在推理过程中忠实地利用这些感知到的视觉信息。与现有方法相比,Faithful-MR1更加关注视觉信息的忠实感知和使用,从而能够更好地解决多模态推理中的忠实性问题。

关键设计:在锚定阶段,论文使用交叉熵损失函数来监督 token的注意力分布,使其与图像区域的显著性或相关性相匹配。在强化阶段,论文使用强化学习算法(如PPO)来训练模型,奖励那些将视觉注意力集中在因果相关的区域的轨迹。具体的奖励函数设计需要根据具体的任务进行调整,但通常包括一个奖励项,用于鼓励模型给出正确的答案,以及一个奖励项,用于鼓励模型将视觉注意力集中在因果相关的区域。

📊 实验亮点

实验结果表明,Faithful-MR1在Qwen2.5-VL-Instruct 3B和7B骨干网络上都优于最近的多模态推理基线,同时使用的数据量大大减少。这表明Faithful-MR1能够更有效地利用训练数据,并取得更好的性能。具体的性能提升数据需要在论文中查找,但总体而言,Faithful-MR1在多模态推理任务上取得了显著的进步。

🎯 应用场景

Faithful-MR1框架可应用于各种需要多模态推理的场景,例如视觉问答、图像描述生成、机器人导航等。该研究有助于提升AI系统在复杂环境下的感知和决策能力,使其能够更可靠地理解和利用视觉信息,从而在实际应用中发挥更大的作用。未来,该方法有望推广到更多模态和更复杂的推理任务中。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising paradigm for advancing complex reasoning in large language models, and recent work extends RLVR to multimodal large language models (MLLMs). This transfer, however, surfaces a faithfulness challenge: faithful perception of task-relevant visual evidence and faithful use of that evidence during reasoning, leading to unsatisfactory gains on multimodal benchmarks. Specifically, existing perception supervision often operates on textual descriptions rather than natively on image regions, and faithful use is largely overlooked, exposing the perception-reasoning disconnect where correctly perceived evidence is dropped or contradicted during reasoning. To close these gaps, we propose Faithful-MR1, a training framework that anchors and reinforces visual attention to address both halves of faithful multimodal reasoning. The Anchoring stage turns perception into an explicit pre-reasoning subtask, supervising a dedicated token's attention directly against image regions rather than through textual descriptions. The Reinforcing stage exposes faithful use through counterfactual image intervention, rewarding answer-correct trajectories that concentrate visual attention where vision causally matters. Extensive experiments demonstrate that Faithful-MR1 outperforms recent multimodal reasoning baselines on both Qwen2.5-VL-Instruct 3B and 7B backbones while using substantially less training data.