VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding

📄 arXiv: 2412.03735v2 📥 PDF

作者: Chaoyu Li, Eun Woo Im, Pooyan Fazli

分类: cs.CV

发布日期: 2024-12-04 (更新: 2025-03-31)

备注: CVPR 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

VidHalluc:评估多模态大语言模型在视频理解中的时间幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 多模态大语言模型 幻觉 时间序列 空间显著性 DINOv2 视频问答

📋 核心要点

  1. 现有MLLM在视频理解中存在幻觉问题,模型会生成不准确或误导性的内容,尤其是在时间维度上。
  2. 论文提出DINO-HEAL方法,利用DINOv2的空间显著性来重新加权视觉特征,从而减少MLLM在视频理解中的幻觉。
  3. 论文构建了VidHalluc基准,包含5002个视频对,用于评估MLLM在动作、时间序列和场景转换三个维度上的幻觉,DINO-HEAL在该基准上平均提升3.02%。

📝 摘要(中文)

多模态大语言模型(MLLMs)在视频理解方面取得了显著进展,尤其在内容推理和指令跟随任务中表现出色。然而,幻觉问题,即模型生成不准确或误导性内容,在视频领域仍未得到充分探索。基于MLLM视觉编码器通常无法区分视觉上不同但语义上相似的视频对的观察,我们引入了VidHalluc,这是一个旨在检查MLLM在视频理解中幻觉现象的最大基准。它包含5002个视频,配对以突出容易产生幻觉的情况。VidHalluc评估了三个关键维度上的幻觉:(1)动作,(2)时间序列,和(3)场景转换。全面的测试表明,大多数MLLM在这些维度上都容易产生幻觉。此外,我们提出了一种无需训练的方法DINO-HEAL,通过结合来自DINOv2的空间显著性来重新加权推理过程中的视觉特征,从而减少幻觉。我们的结果表明,DINO-HEAL持续提高了VidHalluc的性能,在所有任务中平均提高了3.02%,从而减轻了幻觉。VidHalluc基准和DINO-HEAL代码均可在https://people-robots.github.io/vidhalluc上找到。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在视频理解中存在的幻觉问题,特别是时间幻觉。现有方法在处理视觉上相似但语义不同的视频时,容易混淆,导致模型产生不准确或误导性的内容。这种幻觉现象阻碍了MLLM在视频理解任务中的可靠性和实用性。

核心思路:论文的核心思路是利用视觉特征的空间显著性来抑制幻觉。具体来说,通过引入DINOv2提取的空间显著性信息,对MLLM的视觉特征进行重新加权,从而使模型更加关注视频中重要的区域和对象,减少对无关信息的依赖,进而降低幻觉发生的概率。

技术框架:DINO-HEAL方法主要包含以下几个步骤:1) 使用MLLM提取视频的视觉特征;2) 使用DINOv2提取视频帧的空间显著性图;3) 将空间显著性图与视觉特征进行融合,对视觉特征进行重新加权;4) 将加权后的视觉特征输入到MLLM中进行推理,得到最终的预测结果。整个过程无需额外的训练,可以直接应用于现有的MLLM。

关键创新:该方法最重要的创新点在于利用空间显著性来缓解时间幻觉。与传统的模型训练或微调方法不同,DINO-HEAL是一种无需训练的推理时方法,可以直接应用于各种MLLM,具有很强的通用性和灵活性。通过引入DINOv2的空间注意力机制,能够有效地提高模型对视频内容的理解能力,减少幻觉的产生。

关键设计:DINO-HEAL的关键设计在于如何将DINOv2的空间显著性信息有效地融入到MLLM的视觉特征中。具体来说,论文采用了一种简单的加权平均方法,将空间显著性图作为权重,对视觉特征的每个通道进行加权。这种方法简单有效,能够很好地突出视频中重要的区域和对象,抑制无关信息的干扰。此外,该方法不需要调整任何参数,可以直接应用于各种MLLM。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,DINO-HEAL方法在VidHalluc基准测试中,能够有效减少多模态大语言模型在视频理解中的幻觉。具体来说,DINO-HEAL在动作、时间序列和场景转换三个维度上均取得了显著的性能提升,平均提升幅度为3.02%。这表明DINO-HEAL能够有效地提高模型对视频内容的理解能力,减少幻觉的产生。

🎯 应用场景

该研究成果可应用于视频内容审核、智能监控、视频摘要生成、视频问答等领域。通过减少多模态大语言模型在视频理解中的幻觉,可以提高这些应用场景的准确性和可靠性,例如,在视频监控中,可以更准确地识别异常行为,减少误报。

📄 摘要(原文)

Multimodal large language models (MLLMs) have recently shown significant advancements in video understanding, excelling in content reasoning and instruction-following tasks. However, hallucination, where models generate inaccurate or misleading content, remains underexplored in the video domain. Building on the observation that MLLM visual encoders often fail to distinguish visually different yet semantically similar video pairs, we introduce VidHalluc, the largest benchmark designed to examine hallucinations in MLLMs for video understanding. It consists of 5,002 videos, paired to highlight cases prone to hallucinations. VidHalluc assesses hallucinations across three critical dimensions: (1) action, (2) temporal sequence, and (3) scene transition. Comprehensive testing shows that most MLLMs are vulnerable to hallucinations across these dimensions. Furthermore, we propose DINO-HEAL, a training-free method that reduces hallucinations by incorporating spatial saliency from DINOv2 to reweight visual features during inference. Our results show that DINO-HEAL consistently improves performance on VidHalluc, achieving an average improvement of 3.02% in mitigating hallucinations across all tasks. Both the VidHalluc benchmark and DINO-HEAL code are available at https://people-robots.github.io/vidhalluc.