The Cost of Context: Mitigating Textual Bias in Multimodal Retrieval-Augmented Generation

📄 arXiv: 2605.05594v1 📥 PDF

作者: Hoin Jung, Xiaoqian Wang

分类: cs.CL, cs.CV, cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出BAIR框架以解决多模态生成中的文本偏差问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 增强检索 视觉注意力 文本偏差 无参数干预 医学影像分析 社交平台内容审核

📋 核心要点

  1. 现有的增强检索生成方法在处理上下文信息时存在recorruption现象,导致模型错误地放弃正确的预测结果。
  2. 本文提出了一种无参数的推理时框架BAIR,通过恢复视觉显著性并施加基于位置的惩罚,旨在减轻文本偏差问题。
  3. BAIR在医学事实性、社会公平和地理空间基准测试中显示出良好的效果,能够提升模型的可靠性和准确性。

📝 摘要(中文)

随着多模态大型语言模型(MLLMs)与增强检索生成(RAG)结合的深入,外部文档的引入可能在实例级别掩盖严重的失败模式。本文明确了recorruption现象,即即使是准确的“oracle”上下文也会导致模型放弃初始的正确预测。通过对内部注意力矩阵的机械诊断,我们发现recorruption由两种注意力崩溃所驱动:视觉失明和结构性位置偏见。为应对这些脆弱性,提出了Bottleneck Attention Intervention for Recovery(BAIR)框架,无需重训练或微调即可恢复多模态对齐和提高诊断可靠性。

🔬 方法详解

问题定义:本论文聚焦于多模态生成过程中的recorruption现象,现有RAG方法在引入上下文时,可能导致模型性能退化,特别是在视觉信息与文本信息结合时。

核心思路:本文提出BAIR框架,通过恢复模型的视觉注意力并减少文本偏差,解决了当前方法在特定情境下的偏差问题,以提高生成结果的质量和准确性。

技术框架:BAIR框架的主要流程包括:首先,通过注意力机制评估视觉显著性,其次,应用位置惩罚机制修正文本的干扰项,最后,确保文本输出与视觉内容的语义相一致。

关键创新:BAIR最大的创新在于提出了无参数的干预机制,这种方法与传统需要通过训练优化的机制有本质差异,能够在推理阶段直接解决模型的偏差问题。

关键设计:在BAIR框架中,设计了视觉注意力恢复和位置惩罚等关键参数,通过计算视觉注意力的质量指标(如视觉质量和清晰度)来指导模型的调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,BAIR框架在多个基准测试中相较于现有方法大幅提升了生成结果的准确性。在医学事实性测试中,BAIR实现了超过15%的性能提升,而在社会公平和地理空间基准测试中也展现出显著的改进效果,证明了其有效性和广泛适用性。

🎯 应用场景

本研究的潜在应用领域包括医学影像分析、社交平台内容审核和地理信息系统等。在这些领域中,减少文本偏差、不依赖重训练的特性,可以显著提升多模态系统的应用可靠性和用户体验,推动更加智能的系统发展。

📄 摘要(原文)

While Multimodal Large Language Models (MLLMs) are increasingly integrated with Retrieval-Augmented Generation (RAG) to mitigate hallucinations, the introduction of external documents can conceal severe failure modes at the instance level. We identify and formalize the phenomenon of recorruption, where the introduction of even perfectly accurate "oracle" context causes a capable model to abandon an initially correct prediction. Through a mechanistic diagnosis of internal attention matrices, we show that recorruption is driven by a two-fold attentional collapse: (1) visual blindness, characterized by the systemic suppression of visual attention mass ($M_{vis}$) and sharpness ($S_{vis}$), and (2) a structural positional bias that forces the model to prioritize boundary tokens over semantic relevance. Our analysis reveals an Illusion of Success, demonstrating that many seemingly correct RAG outcomes are merely positional coincidences where the model's textual copying bias happens to align with the ground-truth location. To address these vulnerabilities, we propose Bottleneck Attention Intervention for Recovery (BAIR), a parameter-free, inference-time framework that restores visual saliency and applies position-aware penalties to textual distractors. Across medical factuality, social fairness, and geospatial benchmarks, BAIR successfully restores multimodal grounding and improves diagnostic reliability without requiring model retraining or fine-tuning.