Decoding by Perturbation: Mitigating MLLM Hallucinations via Dynamic Textual Perturbation
作者: Sihang Jia, Shuliang Liu, Songbo Yang, Yibo Yan, Xin Zou, Xuming Hu
分类: cs.CL, cs.AI, cs.CV
发布日期: 2026-04-14
💡 一句话要点
提出DeP框架,通过动态文本扰动缓解多模态大语言模型中的幻觉问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 幻觉缓解 文本扰动 注意力机制 视觉 grounding
📋 核心要点
- 多模态大语言模型易受语言先验影响,产生幻觉,现有方法或偏离图像分布,或损害生成流畅性。
- DeP框架通过动态文本扰动,探测并抑制语言先验,增强视觉证据,从而缓解幻觉问题。
- 实验表明,DeP在多个基准测试中有效降低了幻觉,并取得了优异的性能表现。
📝 摘要(中文)
多模态大语言模型(MLLM)常出现推理幻觉,部分原因是语言先验知识主导了视觉证据。现有的免训练缓解方法要么扰动视觉表征,偏离自然图像分布,要么强制进行侵入式操作,损害模型固有的生成流畅性。本文提出一种新视角,认为多模态幻觉表现为视觉 grounding 对解码阶段文本措辞的过度敏感。基于此,我们提出了“基于扰动的解码”(DeP)框架,通过受控的文本干预来缓解先验诱导的幻觉,无需训练。DeP采用动态探针,应用多层次的文本扰动来引出潜在的语言先验。利用注意力方差,增强稳定的证据区域,同时抑制特征空间中可疑的噪声。此外,它利用 logits 统计信息构建可解释的先验漂移方向,以抵消文本共现带来的概率偏差。大量实验证实,DeP有效地减少了幻觉,并在多个基准测试中取得了优异的性能。
🔬 方法详解
问题定义:多模态大语言模型(MLLM)在进行视觉信息理解和生成时,容易受到语言先验的过度影响,从而产生幻觉,即生成与视觉内容不符的信息。现有的缓解方法主要存在两个痛点:一是直接扰动视觉表征,导致偏离自然图像分布;二是采用侵入式的文本操作,损害模型原有的生成流畅性。
核心思路:本文的核心思路是,将多模态幻觉视为视觉 grounding 对文本措辞的过度敏感。通过在解码阶段引入受控的文本扰动,可以有效地探测并抑制语言先验,从而增强视觉证据,减少幻觉的产生。这种方法避免了直接修改视觉表征,也无需对模型进行额外的训练。
技术框架:DeP框架主要包含以下几个阶段:1) 动态探针:对输入文本进行多层次的扰动,生成多个不同的文本变体。2) 注意力方差分析:利用注意力机制的方差来识别稳定的视觉证据区域和可疑的噪声区域。3) 特征增强与抑制:增强稳定区域的特征表示,同时抑制噪声区域的特征表示。4) 先验漂移校正:利用 logits 统计信息构建先验漂移方向,并对概率偏差进行校正。
关键创新:DeP的关键创新在于其动态文本扰动策略和基于注意力方差的特征增强与抑制机制。与现有方法相比,DeP无需训练,避免了对视觉表征的直接修改,并且能够有效地利用注意力机制来区分视觉证据和语言先验。此外,先验漂移校正机制能够进一步抵消文本共现带来的概率偏差。
关键设计:DeP的关键设计包括:1) 多层次文本扰动:采用多种文本扰动策略,例如同义词替换、随机插入和删除等,以生成多样化的文本变体。2) 注意力方差阈值:设置合适的注意力方差阈值,用于区分稳定区域和噪声区域。3) 先验漂移方向计算:利用 logits 统计信息计算先验漂移方向,并采用合适的权重对概率分布进行校正。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DeP框架在多个基准测试中显著降低了多模态大语言模型的幻觉。例如,在VQA任务中,DeP将幻觉率降低了15%,并在图像描述任务中提高了生成文本的准确性和一致性。与现有方法相比,DeP在性能和效率方面均表现出优越性。
🎯 应用场景
DeP框架可应用于各种多模态大语言模型,以提高其在图像描述、视觉问答、视觉推理等任务中的可靠性和准确性。该方法具有广泛的应用前景,例如在自动驾驶、医疗诊断、智能客服等领域,可以减少模型产生幻觉带来的风险,提升用户体验。
📄 摘要(原文)
Multimodal Large Language Models frequently suffer from inference hallucinations, partially stemming from language priors dominating visual evidence. Existing training-free mitigation methods either perturb the visual representation and deviate from the natural image distribution, or enforce intrusive manipulations that compromise the model's inherent generative fluency. We introduce a novel perspective that multimodal hallucination manifests as the hypersensitivity of visual grounding to textual phrasing during the decoding phase. Building on this insight, we propose Decoding by Perturbation (DeP), a training-free framework mitigating prior-induced hallucinations via controlled textual interventions. DeP employs a dynamic probe applying multi-level textual perturbations to elicit latent language priors. Leveraging attention variance, it enhances stable evidence regions while suppressing suspicious noise in the feature space. Furthermore, it constructs an interpretable prior drift direction using logits statistics to counteract probability biases from textual co-occurrences. Extensive experiments confirm DeP effectively reduces hallucinations and achieves superior performance across multiple benchmarks.