Mitigating Object Hallucinations in MLLMs via Multi-Frequency Perturbations

📄 arXiv: 2503.14895v1 📥 PDF

作者: Shuo Li, Jiajun Sun, Guodong Zheng, Xiaoran Fan, Yujiong Shen, Yi Lu, Zhiheng Xi, Yuming Yang, Wenming Tan, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-03-19


💡 一句话要点

提出多频扰动(MFP)方法,缓解多模态大语言模型中的物体幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 物体幻觉 频率扰动 视觉特征表示 CHAIR基准

📋 核心要点

  1. 多模态大语言模型易受图像频率特征影响,产生物体幻觉,降低了生成内容的真实性。
  2. 提出多频扰动(MFP)方法,通过扰动视觉特征表示,抑制冗余频域特征,缓解幻觉。
  3. 实验表明,MFP能有效减轻物体幻觉,并可与推理时方法结合,在CHAIR基准上取得SOTA性能。

📝 摘要(中文)

多模态大语言模型(MLLMs)在视觉-语言任务中表现出了卓越的性能。然而,MLLMs生成的响应的真实性经常受到物体幻觉的影响。我们发现,这些幻觉的一个关键原因是模型在检测物体时对特定图像频率特征过度敏感。在本文中,我们介绍了一种简单、经济高效且可插拔的方法,即多频扰动(MFP),它利用图像的低频和高频特征来扰动视觉特征表示,并显式地抑制推理过程中冗余的频域特征,从而减轻幻觉。实验结果表明,我们的方法显著减轻了各种模型架构中的物体幻觉。此外,作为一种训练时方法,MFP可以与推理时方法相结合,在CHAIR基准测试中实现最先进的性能。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)在视觉-语言任务中表现出色,但容易产生物体幻觉,即模型在图像中识别出不存在的物体。现有方法未能充分解决模型对特定图像频率特征的过度依赖,导致幻觉问题难以根除。

核心思路:该论文的核心思路是通过扰动图像的频率特征来降低模型对特定频率的过度敏感性。具体来说,通过引入包含低频和高频成分的扰动,使得模型在推理时更加关注图像的整体信息,而不是过度依赖某些特定的频率特征。

技术框架:MFP方法主要分为两个阶段:扰动生成阶段和特征融合阶段。在扰动生成阶段,利用图像的低频和高频信息生成扰动。在特征融合阶段,将生成的扰动添加到视觉特征表示中,从而影响模型的判断。该方法可以作为插件集成到现有的MLLM架构中。

关键创新:该方法最重要的创新点在于其利用多频率扰动来显式地抑制冗余的频域特征。与以往主要关注图像内容本身的方法不同,MFP从频率域的角度出发,通过扰动频率特征来缓解幻觉问题。

关键设计:MFP的关键设计包括:1) 如何生成具有代表性的低频和高频扰动;2) 如何将扰动有效地融合到视觉特征表示中,避免引入过多的噪声;3) 如何控制扰动的强度,以在缓解幻觉和保持模型性能之间取得平衡。具体的实现细节,例如扰动生成的方式、融合策略以及扰动强度的控制方法,需要在实验中进行调整和优化。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,MFP方法能够显著减轻各种模型架构中的物体幻觉。在CHAIR基准测试中,MFP与推理时方法相结合,实现了最先进的性能。具体的性能提升数据需要在论文中查找,但摘要中明确指出MFP能够显著缓解物体幻觉,并在CHAIR上达到SOTA。

🎯 应用场景

该研究成果可应用于各种需要视觉-语言理解的场景,例如图像描述生成、视觉问答、机器人导航等。通过减少物体幻觉,可以提高MLLM生成内容的真实性和可靠性,从而提升用户体验和应用效果。未来,该方法有望推广到更广泛的多模态学习任务中,并促进相关技术的发展。

📄 摘要(原文)

Recently, multimodal large language models (MLLMs) have demonstrated remarkable performance in visual-language tasks. However, the authenticity of the responses generated by MLLMs is often compromised by object hallucinations. We identify that a key cause of these hallucinations is the model's over-susceptibility to specific image frequency features in detecting objects. In this paper, we introduce Multi-Frequency Perturbations (MFP), a simple, cost-effective, and pluggable method that leverages both low-frequency and high-frequency features of images to perturb visual feature representations and explicitly suppress redundant frequency-domain features during inference, thereby mitigating hallucinations. Experimental results demonstrate that our method significantly mitigates object hallucinations across various model architectures. Furthermore, as a training-time method, MFP can be combined with inference-time methods to achieve state-of-the-art performance on the CHAIR benchmark.