Rethinking Visual Neglect: Steering via Context-Preference for MLLM Hallucination Mitigation

📄 arXiv: 2605.27993v1 📥 PDF

作者: Jingwen Wu, Xijun Zhang, Ge Song

分类: cs.CL

发布日期: 2026-05-27

备注: 15 pages, 5 figures


💡 一句话要点

提出Context-Preference Activation Steering (CAS)框架,缓解MLLM中的对象幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 对象幻觉 上下文偏好 激活引导 无训练方法

📋 核心要点

  1. 现有MLLM缓解幻觉的方法侧重于增强视觉依赖,但实验表明过度依赖视觉可能加剧幻觉。
  2. 论文提出Context-Preference Activation Steering (CAS)框架,通过控制上下文偏好向量来调节信息依赖,无需训练。
  3. 实验结果表明,CAS能有效缓解对象幻觉,同时保持文本生成质量,且不增加解码延迟。

📝 摘要(中文)

对象幻觉仍然是多模态大型语言模型(MLLM)可靠部署的主要障碍。目前的推理时缓解方法主要假设幻觉源于视觉忽视,并引导模型增强视觉依赖。与此相反,我们对多个MLLM的系统干预表明,推动更多的视觉依赖可能会加剧某些模型上的幻觉,而减少视觉依赖可能会缓解幻觉。这一结果表明,将幻觉仅仅归因于视觉不足是不确定的。我们认为,图像作为一种上下文,同时与模型的参数知识和文本上下文竞争。为此,我们提出了一个无需训练的框架,即上下文偏好激活引导(CAS)。它通过两小组设计的冲突样本提取两个语义上不同的上下文偏好向量(CPV),并在推理期间通过单次有符号残差注入将其应用于中早期MLP层,以控制信息依赖。实验表明,CAS在不增加解码延迟的情况下,显著缓解了对象幻觉,并保留了原生的文本生成质量。

🔬 方法详解

问题定义:MLLM在多模态任务中容易产生对象幻觉,即生成图像中不存在的对象。现有方法通常假设这是由于模型对视觉信息利用不足造成的,因此试图增强模型对视觉信息的依赖。然而,论文指出,过度依赖视觉信息反而可能加剧幻觉,表明问题并非单纯的视觉忽视。

核心思路:论文认为,图像、文本和模型自身的参数知识都在竞争,共同影响最终的生成结果。因此,缓解幻觉的关键在于平衡这三者之间的关系,而不是一味地增强视觉依赖。CAS的核心思想是通过控制模型对不同上下文(图像和文本)的偏好,来调节信息依赖,从而减少幻觉。

技术框架:CAS是一个无需训练的框架,主要包含以下几个步骤:1) 设计冲突样本:构建两组语义上存在冲突的样本,例如,一组样本中图像提示“苹果”,文本提示“香蕉”,另一组反之。2) 提取上下文偏好向量(CPV):利用冲突样本,通过分析模型在不同上下文下的激活模式,提取代表图像偏好和文本偏好的CPV。3) 推理时注入CPV:在推理过程中,将提取的CPV以有符号残差注入的方式,添加到模型中早期到中期的MLP层,从而控制模型对图像和文本信息的依赖程度。

关键创新:CAS的关键创新在于:1) 提出了上下文偏好的概念,认为幻觉是多种信息源竞争的结果,而不是单纯的视觉忽视。2) 提出了无需训练的CPV提取和注入方法,避免了重新训练模型的成本。3) 通过在MLP层进行残差注入,实现了对模型信息依赖的精细控制。

关键设计:1) 冲突样本的设计:需要精心设计冲突样本,确保图像和文本信息在语义上存在明确的冲突,以便准确提取CPV。2) CPV的提取方法:通过分析模型在冲突样本下的激活模式,提取代表图像和文本偏好的向量。具体方法未知,论文中未详细说明。3) 残差注入的位置和方式:选择模型中早期到中期的MLP层进行残差注入,并使用有符号残差,以便控制信息依赖的方向和强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的CAS框架在多个MLLM上进行了实验,结果表明,CAS能够显著缓解对象幻觉,同时保持原生的文本生成质量,并且不增加解码延迟。具体的性能数据和对比基线在摘要中未提及,但强调了CAS在缓解幻觉方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要可靠多模态理解的场景,例如:自动驾驶、医疗诊断、智能客服等。通过缓解MLLM中的对象幻觉,可以提高这些应用的安全性和可靠性,避免因错误信息导致的决策失误。此外,该方法无需训练,易于部署,具有广泛的应用前景。

📄 摘要(原文)

Object hallucination remains a primary obstacle to the reliable deployment of Multimodal Large Language Models (MLLMs). Current inference-time mitigation methods mainly assume hallucinations stem from visual neglect, steering models to enhance visual reliance. In contrast, our systematic interventions on multiple MLLMs show that pushing toward more visual reliance may exacerbate hallucinations on some models, while less may mitigate hallucinations. This result suggests that attributing hallucinations solely to visual insufficiency is underdetermined. We argue that the image, as a context, simultaneously competes with the model's parametric knowledge and the textual context. For this, we propose a training-free framework, Context-Preference Activation Steering (CAS). It extracts two semantically distinct Context Preference Vectors (CPVs) via two small sets of designed conflict samples and applies them via single-pass signed residual injection at mid-early MLP layers during inference to control information reliance. Experiments show that CAS substantially mitigates object hallucinations without increasing decoding latency and preserves native text-generation quality.