Visual Attention Reasoning via Hierarchical Search and Self-Verification

📄 arXiv: 2510.18619v4 📥 PDF

作者: Wei Cai, Jian Zhao, Yuchen Yuan, Tianle Zhang, Ming Zhu, Haichuan Tang, Xuelong Li

分类: cs.AI

发布日期: 2025-10-21 (更新: 2026-01-26)

备注: The paper is withdrawn by the authors after discovering a flaw in the theoretical derivation presented in the Method section. This incorrect step leads to conclusions that are not supported by the corrected derivation. The authors plan to reconstruct the argument and will release an updated version once the issue is fully resolved


💡 一句话要点

提出Visual Attention Reasoning框架,解决多模态大模型中的幻觉问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 视觉推理 幻觉抑制 强化学习 分层搜索 自验证 视觉注意力

📋 核心要点

  1. 多模态大模型易产生幻觉,原因是其线性推理脆弱且视觉基础薄弱,难以进行可靠的视觉证据追溯。
  2. 提出Visual Attention Reasoning (VAR)框架,将推理过程建模为分层搜索,并引入自验证机制纠正错误。
  3. 实验结果表明,VAR在幻觉和安全基准测试中显著优于现有方法,验证了框架的有效性和可靠性。

📝 摘要(中文)

多模态大型语言模型(MLLM)由于依赖脆弱的线性推理和薄弱的视觉基础,经常产生幻觉。我们提出了视觉注意力推理(VAR),这是一个强化学习框架,它将推理重构为具有自我验证的分层搜索。VAR通过生成显式的边界框来强制执行可追溯的证据基础,并由结合了几何精度和语义充分性的新型奖励函数引导。此外,它用能够回溯以纠正逻辑错误的树搜索策略取代了线性思维链。理论分析验证了该框架的可靠性,大量的实验表明,VAR在复杂的幻觉和安全基准测试中明显优于最先进的方法。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)在处理视觉相关任务时,容易产生幻觉,即生成与图像内容不符或不相关的文本。现有的方法通常采用线性的Chain-of-Thought推理方式,缺乏对视觉信息的有效利用和错误纠正机制,导致推理过程脆弱,容易出错。

核心思路:论文的核心思路是将推理过程视为一个分层搜索问题,通过强化学习训练一个策略,使其能够逐步生成与视觉信息相关的边界框,并利用这些边界框进行推理。同时,引入自验证机制,允许模型回溯并纠正推理过程中的错误,从而提高推理的准确性和可靠性。

技术框架:VAR框架主要包含以下几个模块:1) 视觉注意力模块:用于提取图像中的视觉特征;2) 策略网络:用于生成边界框,并指导推理过程;3) 奖励函数:用于评估生成的边界框的质量,并指导策略网络的训练;4) 自验证模块:用于检测推理过程中的错误,并进行回溯和纠正。整个框架采用强化学习的方式进行训练,目标是最大化奖励函数。

关键创新:该论文的关键创新在于:1) 将推理过程建模为分层搜索问题,允许模型逐步探索视觉信息,并进行推理;2) 引入自验证机制,允许模型回溯并纠正推理过程中的错误;3) 设计了一种新的奖励函数,结合了几何精度和语义充分性,能够更有效地评估生成的边界框的质量。

关键设计:奖励函数的设计是关键。它由两部分组成:几何精度奖励和语义充分性奖励。几何精度奖励用于评估生成的边界框与真实边界框的重叠程度,采用IoU(Intersection over Union)作为指标。语义充分性奖励用于评估生成的边界框是否包含足够的语义信息,采用预训练的视觉语言模型进行评估。策略网络采用Transformer结构,输入为视觉特征和历史动作,输出为下一个边界框的位置和大小。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VAR在多个幻觉和安全基准测试中显著优于现有方法。例如,在某个基准测试中,VAR的性能比最先进的方法提高了超过10%。此外,消融实验验证了自验证机制和新型奖励函数的有效性。这些结果表明,VAR能够有效地减少多模态大模型中的幻觉现象,提高推理的准确性和可靠性。

🎯 应用场景

该研究成果可应用于各种需要视觉推理的多模态任务,例如视觉问答、图像描述、目标检测等。通过提高多模态大模型的推理准确性和可靠性,可以减少幻觉现象,提高用户体验,并为安全相关的应用提供更可靠的保障。未来,该方法有望扩展到更复杂的视觉推理场景,例如视频理解和机器人导航。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) frequently hallucinate due to their reliance on fragile, linear reasoning and weak visual grounding. We propose Visual Attention Reasoning (VAR), a reinforcement learning framework that reformulates reasoning as a hierarchical search with self-verification. VAR enforces traceable evidence grounding by generating explicit bounding boxes, guided by a novel reward function combining geometric precision and semantic sufficiency. Furthermore, it replaces linear Chain-of-Thought with a tree-search policy capable of backtracking to correct logical errors. Theoretical analysis validates the framework's reliability, and extensive experiments demonstrate that VAR significantly outperforms state-of-the-art methods on complex hallucination and safety benchmarks.