R-CoV: Region-Aware Chain-of-Verification for Alleviating Object Hallucinations in LVLMs

📄 arXiv: 2604.20696v1 📥 PDF

作者: Jiahao Xie, Alessio Tonioni, Nathalie Rauschmayr, Federico Tombari, Bernt Schiele

分类: cs.CV

发布日期: 2026-04-22

🔗 代码/项目: GITHUB


💡 一句话要点

提出R-CoV,通过区域感知链式验证缓解LVLM中的对象幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 对象幻觉 链式验证 区域感知 多模态学习

📋 核心要点

  1. LVLM在多模态任务中表现出色,但仍面临对象幻觉问题,即错误地识别不存在的对象。
  2. R-CoV模仿人类视觉理解方式,通过关注图像区域细节,引导LVLM进行区域级别的处理,从而检测和缓解幻觉。
  3. R-CoV无需训练,可无缝集成到多种LVLM中,实验证明其能有效缓解对象幻觉问题。

📝 摘要(中文)

大型视觉语言模型(LVLM)在各种多模态理解和推理任务中表现出令人印象深刻的性能。然而,它们仍然存在对象幻觉问题,即声称视觉输入中存在不存在的对象。为了解决这个挑战,我们提出了一种区域感知链式验证(R-CoV)方法,这是一种视觉链式验证方法,以事后方式缓解LVLM中的对象幻觉。受到人类理解复杂视觉信息方式的启发——通常关注给定样本中的特定图像区域或细节——我们从LVLM本身引出这种区域级别的处理,并将其用作链接线索,以检测和减轻它们自身的对象幻觉。具体来说,我们的R-CoV包括六个步骤:初始响应生成、实体提取、坐标生成、区域描述、验证执行和最终响应生成。作为一个简单而有效的方法,R-CoV可以无缝集成到各种LVLM中,无需训练,也无需依赖外部检测模型。在多个LVLM的几个广泛使用的幻觉基准上进行的大量实验表明,R-CoV可以显著缓解LVLM中的对象幻觉。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLM)中存在的对象幻觉问题,即模型错误地声称在图像中存在实际上不存在的对象。现有方法的痛点在于,它们要么依赖于额外的训练数据,要么需要外部的对象检测模型,增加了复杂性和成本。

核心思路:R-CoV的核心思路是模仿人类的视觉认知过程,即在理解复杂场景时,我们会关注特定的图像区域或细节。通过引导LVLM关注图像的局部区域,并对这些区域进行详细描述和验证,可以有效地检测和纠正其自身的幻觉。这种方法无需额外的训练,并且可以作为后处理步骤应用于现有的LVLM。

技术框架:R-CoV包含六个主要步骤:1) 初始响应生成:LVLM生成对输入图像的初始描述。2) 实体提取:从初始响应中提取关键的对象实体。3) 坐标生成:为每个实体生成对应的图像区域坐标。4) 区域描述:LVLM对每个区域进行详细描述。5) 验证执行:基于区域描述,验证初始响应中是否存在幻觉。6) 最终响应生成:根据验证结果,生成修正后的最终响应。

关键创新:R-CoV的关键创新在于其区域感知的链式验证机制。它不是简单地依赖于全局图像特征,而是通过关注图像的局部区域,并利用LVLM自身的能力进行验证,从而有效地缓解了对象幻觉。与需要额外训练或依赖外部模型的现有方法相比,R-CoV更加轻量级和灵活。

关键设计:坐标生成步骤至关重要,它决定了LVLM关注的图像区域。论文中坐标生成方法的具体细节未知,但其目标是为每个提取的实体生成合理的图像区域。验证执行步骤的设计也至关重要,它需要有效地利用区域描述来判断初始响应中是否存在幻觉。具体的验证策略未知,可能涉及到对区域描述的语义分析和一致性检查。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,R-CoV能够显著缓解LVLM中的对象幻觉。在多个广泛使用的幻觉基准测试中,R-CoV在多个LVLM上都取得了显著的性能提升。具体的性能数据和提升幅度在论文中给出,表明R-CoV是一种有效且通用的缓解对象幻觉的方法。

🎯 应用场景

R-CoV具有广泛的应用前景,可以应用于各种需要可靠视觉信息理解的场景,例如自动驾驶、智能监控、医疗影像分析、机器人导航等。通过减少LVLM中的对象幻觉,可以提高这些应用的安全性和可靠性,并为用户提供更准确的信息。

📄 摘要(原文)

Large vision-language models (LVLMs) have demonstrated impressive performance in various multimodal understanding and reasoning tasks. However, they still struggle with object hallucinations, i.e., the claim of nonexistent objects in the visual input. To address this challenge, we propose Region-aware Chain-of-Verification (R-CoV), a visual chain-of-verification method to alleviate object hallucinations in LVLMs in a post-hoc manner. Motivated by how humans comprehend intricate visual information -- often focusing on specific image regions or details within a given sample -- we elicit such region-level processing from LVLMs themselves and use it as a chaining cue to detect and alleviate their own object hallucinations. Specifically, our R-CoV consists of six steps: initial response generation, entity extraction, coordinate generation, region description, verification execution, and final response generation. As a simple yet effective method, R-CoV can be seamlessly integrated into various LVLMs in a training-free manner and without relying on external detection models. Extensive experiments on several widely used hallucination benchmarks across multiple LVLMs demonstrate that R-CoV can significantly alleviate object hallucinations in LVLMs. Project page: https://github.com/Jiahao000/R-CoV.