MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs

作者: Haonan Ge, Yiwei Wang, Ming-Hsuan Yang, Yujun Cai

分类: cs.CV, cs.AI

发布日期: 2025-08-14 (更新: 2025-10-13)

备注: EMNLP 2025

💡 一句话要点

提出MRFD多区域融合解码方法，缓解LVLM中的幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态学习 幻觉缓解 区域融合 一致性建模

📋 核心要点

LVLM在多模态任务中表现出色，但由于缺乏对图像区域信息的有效验证，容易产生与视觉内容不符的幻觉。
MRFD通过交叉注意力提取显著区域，并利用区域间响应的一致性（JSD散度）来指导最终预测，提升事实 grounding。
实验表明，MRFD能显著减少LVLM的幻觉，提高响应的事实性，且无需额外的模型训练或微调。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在多模态任务中表现出强大的性能。然而，由于验证图像不同区域信息的能力有限，它们经常产生与视觉输入不一致的幻觉文本。为了解决这个问题，我们提出了一种多区域融合解码(MRFD)方法，这是一种无需训练的解码方法，通过建模区域间一致性来提高事实基础。MRFD利用交叉注意力识别显著区域，为每个区域生成初始响应，并基于响应之间的Jensen-Shannon散度(JSD)计算可靠性权重。这些权重通过区域感知的提示，引导对每个区域预测的一致性感知融合，这种提示的灵感来自思维链推理。在多个LVLM和基准测试上的实验表明，MRFD显著减少了幻觉，并在不需要模型更新的情况下提高了响应的事实性。

🔬 方法详解

问题定义：LVLM在生成文本描述时，容易产生与图像内容不符的“幻觉”现象。现有方法难以有效利用图像不同区域的信息，缺乏对区域间一致性的建模，导致生成文本的事实性不足。

核心思路：MRFD的核心在于通过分析图像不同区域的响应，利用区域间响应的一致性来提升整体描述的事实性。具体来说，如果不同区域的响应在语义上相似，则认为这些区域的响应更可靠，应该赋予更高的权重。

技术框架：MRFD主要包含以下几个阶段：1) 区域识别：利用交叉注意力机制识别图像中的显著区域。2) 区域响应生成：为每个识别出的区域生成初始的文本响应。3) 可靠性评估：使用Jensen-Shannon Divergence (JSD)计算不同区域响应之间的差异，作为可靠性权重的依据。4) 一致性融合：基于可靠性权重，使用区域感知的提示，融合各个区域的预测，生成最终的文本描述。

关键创新：MRFD的关键创新在于提出了一种无需训练的解码方法，通过建模区域间响应的一致性来减少幻觉。与需要重新训练或微调模型的方法不同，MRFD可以直接应用于现有的LVLM，具有更好的通用性和易用性。此外，利用JSD散度来衡量区域间响应的一致性，并将其作为可靠性权重的依据，是一种有效且可解释的方法。

关键设计：区域感知的提示设计是关键。论文受到Chain-of-Thought推理的启发，为每个区域设计特定的提示，引导模型生成更准确的描述。JSD散度用于计算区域间响应的概率分布差异，公式为：JSD(P||Q) = 0.5 * (KL(P||M) + KL(Q||M))，其中M = 0.5 * (P + Q)，KL表示Kullback-Leibler散度。可靠性权重基于JSD散度计算，差异越大，权重越小。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MRFD在多个LVLM和基准测试中显著减少了幻觉，提高了响应的事实性。例如，在某个基准测试中，MRFD将幻觉率降低了XX%，并将事实准确率提高了YY%。此外，MRFD在不同的LVLM上都表现出良好的泛化能力，证明了其有效性和通用性。

🎯 应用场景

MRFD具有广泛的应用前景，可以应用于图像描述、视觉问答、图像编辑等多个领域。通过减少LVLM中的幻觉，可以提高生成内容的可靠性和实用性，例如在自动驾驶领域，可以提高系统对周围环境的理解和判断准确性。该方法无需训练，易于部署，可以快速提升现有LVLM的性能。

📄 摘要（原文）

Large Vision-Language Models (LVLMs) have shown strong performance across multimodal tasks. However, they often produce hallucinations -- text that is inconsistent with visual input, due to the limited ability to verify information in different regions of the image. To address this, we propose Multi-Region Fusion Decoding (MRFD), a training-free decoding method that improves factual grounding by modeling inter-region consistency. MRFD identifies salient regions using cross-attention, generates initial responses for each, and computes reliability weights based on Jensen-Shannon Divergence (JSD) among the responses. These weights guide a consistency-aware fusion of per-region predictions, using region-aware prompts inspired by Chain-of-Thought reasoning. Experiments across multiple LVLMs and benchmarks show that MRFD significantly reduces hallucinations and improves response factuality without requiring model updates.

MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理