Self-Augmented Visual Contrastive Decoding

📄 arXiv: 2510.13315v1 📥 PDF

作者: Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta

分类: cs.CV, cs.AI

发布日期: 2025-10-15


💡 一句话要点

提出自增强视觉对比解码,提升大型视觉语言模型的事实一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 对比解码 自增强 事实一致性 幻觉抑制

📋 核心要点

  1. 现有视觉对比解码方法采用通用视觉增强,忽略了文本查询的上下文信息,效果受限。
  2. 提出自增强提示策略,利用模型自身知识动态对齐查询和视觉增强的语义。
  3. 提出自适应阈值算法,根据输出稀疏性调整token候选大小,充分利用logit分布信息,提升性能。

📝 摘要(中文)

大型视觉语言模型(LVLMs)展示了卓越的多模态能力,但也继承了底层语言模型的幻觉问题。虽然视觉对比解码已被提出用于缓解此问题,但现有方法通常应用通用的视觉增强,忽略了文本查询提供的特定上下文,限制了其有效性。本研究提出了一种新颖的免训练解码策略,通过两个关键贡献解决了这些限制。首先,一种自增强提示策略,利用模型内在知识来动态对齐查询和视觉增强之间的语义。其次,一种自适应阈值算法,基于输出稀疏性自适应地调整下一个token候选大小,从而利用来自logit分布的完整信息。在四个LVLM和七个基准测试上的大量实验表明,与最先进的解码方法相比,所提出的解码显著提高了事实一致性。这项工作强调了整合查询相关的增强和熵感知解码对于改善LVLM的有效生成的重要性。

🔬 方法详解

问题定义:大型视觉语言模型(LVLMs)容易产生幻觉,即生成与事实不符的内容。现有的视觉对比解码方法试图通过视觉增强来缓解这个问题,但它们通常使用与文本查询无关的通用视觉增强,无法有效地利用上下文信息,导致提升效果有限。

核心思路:本文的核心思路是利用模型自身的知识来生成与文本查询相关的视觉增强,并结合熵感知解码策略,从而更有效地抑制幻觉。通过让模型自己生成增强,可以确保增强后的图像与原始图像在语义上保持一致,从而提高对比学习的效果。

技术框架:该方法主要包含两个阶段:1) 自增强提示阶段:利用模型的内在知识,根据文本查询生成相应的视觉增强。具体来说,通过特定的prompt,让模型生成对图像的描述或解释,然后利用这些描述或解释来指导视觉增强。2) 自适应阈值解码阶段:根据模型输出的稀疏性,自适应地调整下一个token候选的大小。如果模型输出的概率分布比较集中(即稀疏性较低),则选择较小的候选集;反之,如果概率分布比较分散(即稀疏性较高),则选择较大的候选集。

关键创新:该方法的主要创新点在于:1) 提出了自增强提示策略,能够生成与文本查询相关的视觉增强,从而更有效地利用上下文信息。2) 提出了自适应阈值解码算法,能够根据模型输出的稀疏性动态调整token候选集的大小,从而提高生成质量。

关键设计:自增强提示策略的关键在于prompt的设计,需要能够引导模型生成与文本查询相关的图像描述或解释。自适应阈值解码算法的关键在于阈值的选择,需要能够平衡生成质量和计算效率。具体实现细节(如prompt的具体形式、阈值的计算方法等)在论文中有详细描述。

📊 实验亮点

实验结果表明,该方法在多个LVLM和基准测试上显著提高了事实一致性。例如,在某些基准测试上,该方法相比于最先进的解码方法,事实一致性提升了5%以上。这些结果表明,该方法能够有效地抑制LVLM的幻觉问题,提高生成质量。

🎯 应用场景

该研究成果可应用于各种需要高事实一致性的视觉语言任务,例如图像问答、视觉对话、图像描述等。通过提高LVLM的事实一致性,可以使其在医疗诊断、自动驾驶等安全关键领域得到更广泛的应用。此外,该方法提出的自增强思想也可以推广到其他多模态学习任务中。

📄 摘要(原文)

Large Vision-Language Models (LVLMs) have demonstrated remarkable multimodal capabilities, but they inherit the tendency to hallucinate from their underlying language models. While visual contrastive decoding has been proposed to mitigate this issue, existing methods often apply generic visual augmentations that disregard the specific context provided by the text query, limiting their effectiveness. This study introduces a novel training-free decoding strategy that addresses these limitations, featuring two key contributions. First, a self-augmentation prompting strategy that leverages the intrinsic knowledge of the model to dynamically align semantics between the query and the visual augmentation. Second, an adaptive thresholding algorithm that adaptively adjusts next token candidate size based on the output sparsity, utilizing full information from the logit distribution. Extensive experiments across four LVLMs and seven benchmarks demonstrate that the proposed decoding significantly enhances factual consistency compared to state-of-the-art decoding methods. This work highlights the importance of integrating query-dependent augmentation and entropy-aware decoding for improving effective generation of LVLMs.