MCA-LLaVA: Manhattan Causal Attention for Reducing Hallucination in Large Vision-Language Models

作者: Qiyan Zhao, Xiaofeng Zhang, Yiheng Li, Yun Xing, Xiaosong Yuan, Feilong Tang, Sinan Fan, Xuhang Chen, Xuyao Zhang, Dahan Wang

分类: cs.CV

发布日期: 2025-07-12 (更新: 2025-07-23)

备注: Accepted in ACM MM 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出MCA-LLaVA，缓解大视觉语言模型中的幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大视觉语言模型 幻觉缓解 多模态对齐 位置编码 曼哈顿距离

📋 核心要点

现有LVLM由于旋转位置编码的长期衰减，导致指令对图像不同位置的感知存在偏差，影响多模态对齐。
提出MCA-LLaVA，利用曼哈顿距离将位置编码扩展到二维空间，缓解图像对齐偏差，提升指令对图像的感知。
实验表明，MCA-LLaVA在多种幻觉和通用基准测试中表现出有效性和通用性，能够有效缓解幻觉问题。

📝 摘要（中文）

大视觉语言模型(LVLMs)中的幻觉是一个重要的挑战，多模态特征之间的不对齐是关键因素。本文揭示了LVLMs中用于位置建模的旋转位置编码(RoPE)的长期衰减对多模态对齐的负面影响。具体来说，在长期衰减下，指令token对图像token的感知是不均匀的，优先感知来自右下角区域的图像token，因为在1D序列中，这些token在位置上更接近指令token。这种有偏差的感知导致图像-指令交互不足和次优的多模态对齐。我们将这种现象称为图像对齐偏差。为了增强指令对不同空间位置的图像token的感知，我们提出了基于曼哈顿距离的MCA-LLaVA，它将长期衰减扩展到二维、多方向的空间衰减。MCA-LLaVA集成了图像token的一维序列顺序和二维空间位置进行位置建模，通过减轻图像对齐偏差来缓解幻觉。MCA-LLaVA在各种幻觉和通用基准测试中的实验结果证明了其有效性和通用性。

🔬 方法详解

问题定义：论文旨在解决大视觉语言模型（LVLMs）中存在的幻觉问题。现有方法，特别是依赖旋转位置编码（RoPE）的LVLMs，由于RoPE的长期衰减特性，导致模型在处理图像时产生“图像对齐偏差”。具体表现为，模型更倾向于关注图像右下角的区域，而忽略其他区域的信息，从而造成多模态特征不对齐，最终导致幻觉的产生。

核心思路：论文的核心思路是缓解由RoPE长期衰减引起的图像对齐偏差。通过引入基于曼哈顿距离的二维空间衰减，使模型能够更均匀地感知图像中不同位置的token。这种方法旨在增强指令token与图像token之间的交互，从而改善多模态对齐，减少幻觉。

技术框架：MCA-LLaVA的核心在于改进了位置编码方式。它没有改变LVLM的整体架构，而是专注于替换原有的RoPE。MCA-LLaVA将图像token的一维序列位置信息和二维空间位置信息结合起来，用于位置建模。具体来说，它利用曼哈顿距离来计算图像token之间的空间关系，并将其融入到位置编码中。

关键创新：关键创新在于提出了基于曼哈顿距离的二维空间衰减位置编码方法。与传统的RoPE相比，MCA-LLaVA能够更好地捕捉图像token之间的空间关系，从而缓解图像对齐偏差。这种方法不仅考虑了token在序列中的位置，还考虑了它们在图像中的实际空间位置，从而实现了更准确的位置建模。

关键设计：MCA-LLaVA的关键设计在于曼哈顿距离的计算和应用。具体来说，对于图像中的每个token，MCA-LLaVA计算其与其他token之间的曼哈顿距离，并使用这些距离来调整位置编码。这种调整使得模型能够更均匀地感知图像中不同位置的token。此外，MCA-LLaVA还保留了原始RoPE中的一维序列位置信息，以确保模型能够理解token的顺序关系。论文未提供损失函数和网络结构的具体修改细节，可能沿用了LLaVA原有的设置。

🖼️ 关键图片

📊 实验亮点

MCA-LLaVA在多个幻觉和通用基准测试中取得了显著的改进。具体性能数据和对比基线在论文中给出，证明了其在缓解幻觉方面的有效性和通用性。实验结果表明，MCA-LLaVA能够显著减少模型产生的错误或不相关的描述，提高生成内容的准确性和一致性。

🎯 应用场景

MCA-LLaVA的潜在应用领域包括图像描述生成、视觉问答、图像编辑等。通过减少LVLM中的幻觉，可以提高这些应用的可信度和实用性。该研究对于提升多模态模型的可靠性和安全性具有重要意义，尤其是在需要精确理解图像内容的场景下，例如医疗影像分析、自动驾驶等。

📄 摘要（原文）

Hallucinations pose a significant challenge in Large Vision Language Models (LVLMs), with misalignment between multimodal features identified as a key contributing factor. This paper reveals the negative impact of the long-term decay in Rotary Position Encoding (RoPE), used for positional modeling in LVLMs, on multimodal alignment. Concretely, under long-term decay, instruction tokens exhibit uneven perception of image tokens located at different positions within the two-dimensional space: prioritizing image tokens from the bottom-right region since in the one-dimensional sequence, these tokens are positionally closer to the instruction tokens. This biased perception leads to insufficient image-instruction interaction and suboptimal multimodal alignment. We refer to this phenomenon as image alignment bias. To enhance instruction's perception of image tokens at different spatial locations, we propose MCA-LLaVA, based on Manhattan distance, which extends the long-term decay to a two-dimensional, multi-directional spatial decay. MCA-LLaVA integrates the one-dimensional sequence order and two-dimensional spatial position of image tokens for positional modeling, mitigating hallucinations by alleviating image alignment bias. Experimental results of MCA-LLaVA across various hallucination and general benchmarks demonstrate its effectiveness and generality. The code can be accessed in https://github.com/ErikZ719/MCA-LLaVA.

MCA-LLaVA: Manhattan Causal Attention for Reducing Hallucination in Large Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理