One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

📄 arXiv: 2603.10360v1 📥 PDF

作者: Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi

分类: cs.CV

发布日期: 2026-03-11

备注: 10 pages


💡 一句话要点

提出基于视觉Token操作的统一框架,对抗多模态大语言模型的幻觉问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 多模态大语言模型 幻觉问题 视觉Token操作 视觉-语言平衡 协同视觉校准 因果表示校准 无训练方法 信息差距

📋 核心要点

  1. 现有方法在增强视觉信号和抑制文本惯性之间权衡,无法有效解决MLLM的幻觉问题。
  2. 通过操作视觉Token,论文提出协同视觉校准(SVC)和因果表示校准(CRC)模块,实现视觉-语言平衡。
  3. 实验表明,该框架显著减少了对象幻觉,并在多个基准测试中提高了POPE准确率。

📝 摘要(中文)

当前解决多模态大语言模型(MLLM)幻觉问题的无训练方法通常采用分离策略:要么增强视觉信号,要么抑制文本惯性。然而,这些分离方法存在关键的权衡:简单地增强视觉信号往往无法对抗强大的语言先验,而抑制语言可能会引入额外的与图像无关的噪声。此外,它们的简单组合也无效,因此需要一个统一的框架。本文通过关注核心资产:视觉Token,提出了这样一个框架。该设计利用了两个关键见解:(1)增强图像提供互补的视觉语义;(2)移除视觉Token(信息差距)比扭曲图像(模态差距)更精确地隔离幻觉倾向。基于此,该框架以两种不同的方式使用视觉Token,都在潜在表示上操作:协同视觉校准(SVC)模块结合增强的Token来加强视觉表示,而因果表示校准(CRC)模块使用修剪的Token来创建潜在空间负样本,以纠正内部模型偏差。通过协调这两个角色,该框架有效地恢复了视觉-语言平衡,显著减少了对象幻觉,并在多个基准测试中,在LLaVA-1.5上平均提高了2%的POPE准确率,且仅有1.06倍的推理延迟开销。

🔬 方法详解

问题定义:多模态大语言模型(MLLM)容易产生幻觉,即生成与输入图像不符的内容。现有的无训练方法试图通过增强视觉信号或抑制文本惯性来解决这个问题,但前者容易被强大的语言先验所掩盖,后者则可能引入额外的噪声。简单地组合这两种方法也无法达到理想的效果。

核心思路:论文的核心思路是通过精细地操纵视觉Token来平衡视觉和语言信息。具体来说,通过增强视觉Token来提升视觉表示的强度,同时通过移除视觉Token来创建负样本,从而校正模型内部的偏差,使其更加依赖于视觉输入。

技术框架:该框架包含两个主要模块:协同视觉校准(SVC)和因果表示校准(CRC)。SVC模块通过引入来自增强图像的视觉Token来增强原始图像的视觉表示。CRC模块则通过移除部分视觉Token来创建信息差距,迫使模型更多地依赖于剩余的视觉信息,从而减少幻觉。这两个模块都在模型的潜在表示空间中进行操作。

关键创新:该论文的关键创新在于提出了一个统一的框架,能够同时增强视觉信号和抑制语言惯性,从而更有效地对抗MLLM的幻觉问题。与现有方法不同,该框架不是简单地增强视觉或抑制语言,而是通过精细地操纵视觉Token来实现视觉-语言的平衡。

关键设计:SVC模块使用增强图像的视觉Token来补充原始图像的视觉信息,增强方式未知(论文未明确说明)。CRC模块通过移除部分视觉Token来创建负样本,移除策略未知(论文未明确说明)。损失函数的设计目标是使模型在原始图像上生成正确的内容,同时在移除部分视觉Token的图像上减少幻觉的产生。具体的损失函数形式未知(论文未明确说明)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在多个基准测试中显著减少了对象幻觉,并在LLaVA-1.5上平均提高了2%的POPE准确率。值得注意的是,该方法仅引入了1.06倍的推理延迟开销,表明其具有较高的实用价值。

🎯 应用场景

该研究成果可应用于各种需要可靠多模态理解的场景,例如智能客服、自动驾驶、医疗诊断等。通过减少多模态大语言模型的幻觉,可以提高这些应用的可信度和安全性,并为用户提供更准确和可靠的信息。

📄 摘要(原文)

Current training-free methods tackle MLLM hallucination with separate strategies: either enhancing visual signals or suppressing text inertia. However, these separate methods are insufficient due to critical trade-offs: simply enhancing vision often fails against strong language prior, while suppressing language can introduce extra image-irrelevant noise. Moreover, we find their naive combination is also ineffective, necessitating a unified framework. We propose such a framework by focusing on the core asset: the vision token. Our design leverages two key insights: (1) augmented images offer complementary visual semantics, and (2) removing vision tokens (information-gap) isolates hallucination tendencies more precisely than distorting images (modality-gap). Based on these, our framework uses vision tokens in two distinct ways, both operating on latent representations: our Synergistic Visual Calibration (SVC) module incorporates augmented tokens to strengthen visual representations, while our Causal Representation Calibration (CRC) module uses pruned tokens to create latent-space negative samples for correcting internal model biases. By harmonizing these two roles, our framework effectively restores the vision-language balance, significantly reducing object hallucinations, improving POPE accuracy by an average of 2% absolute on LLaVA-1.5 across multiple benchmarks with only a 1.06x inference latency overhead.