Don't Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs

📄 arXiv: 2504.09456v1 📥 PDF

作者: Pengkun Jiao, Bin Zhu, Jingjing Chen, Chong-Wah Ngo, Yu-Gang Jiang

分类: cs.AI, cs.CV

发布日期: 2025-04-13


💡 一句话要点

提出GasEraser,通过重分配注意力权重缓解LMMs中的否定诱导欺骗问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 注意力机制 欺骗攻击 鲁棒性 视觉推理

📋 核心要点

  1. 现有LMMs易受否定诱导的欺骗攻击,导致模型性能显著下降,影响实际应用。
  2. GasEraser通过重新分配注意力权重,抑制误导性文本token,增强视觉线索的关注,提升模型鲁棒性。
  3. 实验表明,GasEraser在多个LMM上有效降低了误导率,例如LLaVA-v1.5-7B降低了48.2%。

📝 摘要(中文)

大型多模态模型(LMMs)在各种任务中表现出卓越的能力。然而,它们容易受到用户欺骗(即故意使用误导或矛盾的输入)的影响,这引发了对其在实际应用中可靠性的严重担忧。本文解决了缓解基于否定的欺骗对LMMs的负面影响这一新颖且具有挑战性的问题,在这种欺骗中,欺骗性的用户陈述会导致模型准确性显著下降。具体来说,我们引入了GasEraser,这是一种无需训练的方法,它将注意力权重从误导性的文本token重新分配到语义上显著的视觉区域。通过抑制“注意力汇聚”token的影响并增强对视觉基础线索的关注,GasEraser显著提高了LMM的鲁棒性,而无需重新训练或额外的监督。广泛的实验结果表明,GasEraser在GaslightingBench上的几个领先的开源LMM中是有效的。值得注意的是,对于LLaVA-v1.5-7B,GasEraser将误导率降低了48.2%,证明了其在构建更值得信赖的LMM方面的潜力。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)在面对基于否定的欺骗性输入时,准确性显著下降的问题。现有的LMMs容易受到误导性文本的影响,导致模型无法正确理解图像内容,从而做出错误的判断。这种脆弱性限制了LMMs在安全关键型应用中的可靠性。

核心思路:GasEraser的核心思路是通过重新分配LMMs的注意力权重,减少误导性文本token的影响,并增强对图像中语义显著区域的关注。通过抑制“注意力汇聚”token,模型可以更好地利用视觉信息进行推理,从而提高对欺骗性输入的鲁棒性。

技术框架:GasEraser是一种训练自由的方法,不需要对LMM进行额外的训练或微调。其主要流程包括:1) 分析LMM的注意力权重分布;2) 识别并抑制与误导性文本token相关的注意力权重;3) 将注意力权重重新分配给图像中语义显著的区域。这个过程旨在引导模型更多地关注视觉信息,减少对误导性文本的依赖。

关键创新:GasEraser的关键创新在于其无需训练的注意力重分配机制。与需要大量数据和计算资源进行微调的方法不同,GasEraser可以直接应用于现有的LMMs,而无需修改模型的参数。这种方法具有更高的效率和灵活性,可以快速提升LMMs的鲁棒性。

关键设计:GasEraser的关键设计包括:1) 注意力权重分析方法,用于识别误导性文本token;2) 注意力权重抑制策略,用于减少这些token的影响;3) 注意力权重重分配策略,用于增强对视觉区域的关注。具体的参数设置和算法细节取决于所使用的LMM的架构和注意力机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GasEraser在GaslightingBench上进行了广泛的实验验证,结果表明其在多个领先的开源LMMs上是有效的。例如,对于LLaVA-v1.5-7B,GasEraser将误导率降低了48.2%。此外,实验还表明,GasEraser在不影响模型在其他任务上的性能的前提下,显著提高了模型对欺骗性输入的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要高度可靠性的多模态应用场景,例如自动驾驶、医疗诊断、安全监控等。通过提高LMMs对欺骗性输入的鲁棒性,可以减少错误判断的风险,提升系统的安全性和可靠性。未来,该技术可以进一步扩展到其他类型的欺骗攻击,构建更值得信赖的人工智能系统。

📄 摘要(原文)

Large Multimodal Models (LMMs) have demonstrated remarkable capabilities across a wide range of tasks. However, their vulnerability to user gaslighting-the deliberate use of misleading or contradictory inputs-raises critical concerns about their reliability in real-world applications. In this paper, we address the novel and challenging issue of mitigating the negative impact of negation-based gaslighting on LMMs, where deceptive user statements lead to significant drops in model accuracy. Specifically, we introduce GasEraser, a training-free approach that reallocates attention weights from misleading textual tokens to semantically salient visual regions. By suppressing the influence of "attention sink" tokens and enhancing focus on visually grounded cues, GasEraser significantly improves LMM robustness without requiring retraining or additional supervision. Extensive experimental results demonstrate that GasEraser is effective across several leading open-source LMMs on the GaslightingBench. Notably, for LLaVA-v1.5-7B, GasEraser reduces the misguidance rate by 48.2%, demonstrating its potential for more trustworthy LMMs.