Logit-Attention Divergence: Mitigating Position Bias in Multi-Image Retrieval via Attention-Guided Calibration
作者: Mingtao Xian, Yifeng Yang, Qinying Gu, Xinbing Wang, Nanyang Ye
分类: cs.CV
发布日期: 2026-05-12
🔗 代码/项目: GITHUB
💡 一句话要点
提出Logit-Attention Divergence方法,解决多图检索中由注意力偏差引起的位置偏见问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多图检索 位置偏见 注意力机制 跨模态学习 Logit校准
📋 核心要点
- 多模态大模型在多图检索中受位置偏见影响,预测易受输入顺序干扰,忽略语义相关性。
- 提出Logit-Attention Divergence方法,利用注意力机制校正logits,无需额外训练。
- 实验表明,该方法显著提升置换不变性,在MS-COCO数据集上准确率提升超过40%。
📝 摘要(中文)
多模态大型语言模型(MLLM)在多图跨模态检索中表现出强大的性能,但存在严重的位置偏见问题,即预测结果主要受输入顺序的影响,而非语义相关性。通过实证分析,我们发现了一种名为Logit-Attention Divergence的现象,其中输出logits存在严重偏差,而内部注意力图仍然与相关的视觉证据保持良好对齐。这一观察揭示了现有logit级别校准方法(如PriDe)的根本局限性。基于此,我们提出了一种无需训练、基于注意力的去偏见框架,该框架利用内在的注意力信号在推理时进行实例级别的校正,只需要一个极小的校准集,且计算开销可忽略不计。在基于MS-COCO的基准测试中,实验表明我们的方法显著提高了置换不变性,并实现了最先进的性能,与基线相比,准确率提高了40%以上。代码可在https://github.com/brightXian/LAD获取。
🔬 方法详解
问题定义:论文旨在解决多图跨模态检索任务中,多模态大语言模型(MLLMs)所表现出的严重的位置偏见问题。具体来说,即使输入图像的顺序发生变化,模型的预测结果也应该保持一致(置换不变性),但现有模型往往会受到输入顺序的强烈影响,导致检索结果偏向于特定位置的图像,而忽略了图像与文本之间的真实语义相关性。现有基于logit级别校准的方法,如PriDe,无法有效解决该问题。
核心思路:论文的核心思路是观察到logits的偏差与注意力机制的对齐之间存在差异,即Logit-Attention Divergence。虽然最终的logits受到了位置偏见的影响,但模型内部的注意力图仍然能够较好地关注到与文本相关的视觉证据。因此,论文提出利用注意力图的信息来校正logits,从而减轻位置偏见的影响。这种方法的核心在于利用模型自身学习到的注意力信息,而不是依赖于外部的训练或额外的参数。
技术框架:该方法是一个训练自由的框架,主要在推理阶段进行。首先,利用多模态大语言模型提取图像和文本的特征,并计算得到logits和注意力图。然后,利用注意力图的信息对logits进行校正,具体来说,就是根据注意力权重对不同位置的图像logits进行加权平均,从而得到最终的预测结果。整个框架只需要一个极小的校准集,用于确定校正的参数。
关键创新:该方法最重要的创新点在于发现了Logit-Attention Divergence现象,并提出了利用注意力图来校正logits的思路。与现有方法相比,该方法不需要额外的训练,而是直接利用模型自身的注意力信息进行校正,从而降低了计算成本,并提高了模型的泛化能力。此外,该方法是一种实例级别的校正方法,可以根据不同的输入图像和文本,自适应地调整校正的强度。
关键设计:该方法的关键设计在于如何有效地利用注意力图来校正logits。具体来说,论文提出了一种基于注意力权重的加权平均方法,将不同位置的图像logits按照其对应的注意力权重进行加权平均,从而得到最终的预测结果。校准集用于确定加权平均的参数,例如,可以学习一个线性变换,将注意力权重映射到logits的校正系数。损失函数的设计目标是最小化校正后的logits与真实标签之间的差异,同时保证模型的置换不变性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在MS-COCO数据集上取得了显著的性能提升,与基线方法相比,准确率提高了40%以上。此外,该方法还显著提高了模型的置换不变性,即在输入图像顺序发生变化时,模型的预测结果仍然保持一致。这些结果表明,该方法能够有效减轻位置偏见的影响,并提高多图检索的性能。
🎯 应用场景
该研究成果可广泛应用于多图检索、跨模态信息检索等领域。例如,在电商搜索中,用户可以通过上传多张商品图片来搜索相似的商品;在医学图像检索中,医生可以通过上传多张不同角度的病灶图像来搜索相关的病例。该方法能够有效提高检索的准确性和鲁棒性,具有重要的实际应用价值和商业前景。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have shown strong performance in multi-image cross-modal retrieval, yet suffer from severe position bias, where predictions are dominated by input order rather than semantic relevance. Through empirical analysis, we identify a phenomenon termed Logit-Attention Divergence, in which output logits are heavily biased while internal attention maps remain well-aligned with relevant visual evidence. This observation reveals a fundamental limitation of existing logit-level calibration methods such as PriDe. Based on this insight, we propose a training-free, attention-guided debiasing framework that leverages intrinsic attention signals for instance-level correction at inference time, requiring only a minimal calibration set with negligible computational overhead. Experiments on MS-COCO-based benchmarks show that our method substantially improves permutation invariance and achieves state-of-the-art performance, enhancing accuracy by over 40\% compared to baselines. Code is available at https://github.com/brightXian/LAD.