Distorted or Fabricated? A Survey on Hallucination in Video LLMs

📄 arXiv: 2604.12944v1 📥 PDF

作者: Yiyang Huang, Yitian Zhang, Yizhou Wang, Mingyuan Zhang, Liang Shi, Huimin Zeng, Yun Fu

分类: cs.CV, cs.AI

发布日期: 2026-04-14

备注: ACL 2026 findings

🔗 代码/项目: GITHUB


💡 一句话要点

对视频大语言模型幻觉现象的全面综述,提出系统分类与缓解策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 幻觉 动态失真 内容捏造 视频理解 多模态学习 视觉基础 时间建模

📋 核心要点

  1. 现有Vid-LLM在时间建模和视觉信息对齐方面存在不足,导致幻觉问题,影响模型可靠性。
  2. 论文提出一个系统性的幻觉分类体系,区分动态失真和内容捏造两大类,并分析其根本原因。
  3. 综述总结了现有幻觉评估指标和缓解策略,并为未来研究方向提供了有价值的见解和建议。

📝 摘要(中文)

尽管视频语言建模取得了显著进展,但幻觉仍然是视频大语言模型(Vid-LLM)中一个持续存在的挑战。幻觉指的是模型输出看似合理,但与输入视频内容相矛盾。本综述全面分析了Vid-LLM中的幻觉现象,并提出了一个系统的分类法,将其分为两大类:动态失真和内容捏造,每类又包含两个子类型,并附有代表性案例。在此分类法的基础上,我们回顾了幻觉评估和缓解方面的最新进展,涵盖了关键的基准、指标和干预策略。我们进一步分析了动态失真和内容捏造的根本原因,这些原因通常源于时间表示能力有限和视觉基础不足。这些见解为未来的工作提供了几个有希望的方向,包括开发运动感知视觉编码器和整合反事实学习技术。本综述整合了分散的研究进展,旨在促进对Vid-LLM中幻觉现象的系统理解,为构建稳健可靠的视频语言系统奠定基础。相关工作的最新列表维护在https://github.com/hukcc/Awesome-Video-Hallucination。

🔬 方法详解

问题定义:视频大语言模型(Vid-LLM)在理解和生成视频内容时,常常出现“幻觉”现象,即生成与视频内容不符的信息。现有方法在时间建模和视觉信息对齐方面存在不足,导致模型无法准确理解视频内容,从而产生幻觉。这些幻觉降低了Vid-LLM的可靠性和可用性。

核心思路:本综述的核心思路是对Vid-LLM中的幻觉现象进行系统性的分类和分析,从而更好地理解幻觉的本质和根源。通过对幻觉进行分类,可以更有针对性地设计评估指标和缓解策略。同时,分析幻觉的根本原因,可以为未来的研究方向提供指导。

技术框架:本综述首先提出了一个幻觉分类体系,将幻觉分为两大类:动态失真和内容捏造。动态失真指的是模型对视频中动态信息的理解出现偏差,例如时间顺序错误或动作识别错误。内容捏造指的是模型生成了视频中不存在的信息,例如添加了不存在的物体或事件。然后,综述回顾了现有的幻觉评估指标和缓解策略,并分析了幻觉的根本原因。

关键创新:本综述最重要的创新点在于提出了一个系统性的幻觉分类体系,该体系能够清晰地描述不同类型的幻觉,并为后续的研究提供了理论基础。此外,综述还对幻觉的根本原因进行了深入分析,为未来的研究方向提供了有价值的见解。

关键设计:本综述的关键设计在于其分类体系的构建。该体系基于对大量Vid-LLM幻觉案例的分析,并结合了领域专家的知识。分类体系的两个主要类别(动态失真和内容捏造)能够涵盖大多数常见的幻觉类型。此外,综述还对每个类别下的子类型进行了详细描述,并提供了代表性案例。

🖼️ 关键图片

fig_0

📊 实验亮点

该综述系统性地总结了Vid-LLM中幻觉现象的研究进展,提出了一个全面的幻觉分类体系,并深入分析了幻觉的根本原因。该综述为未来的研究方向提供了有价值的见解和建议,例如开发运动感知视觉编码器和整合反事实学习技术。

🎯 应用场景

该研究成果可应用于提升视频内容理解、视频摘要、视频问答等任务中视频大语言模型的可靠性和准确性。通过减少幻觉,可以提高用户对模型的信任度,并拓展Vid-LLM在教育、娱乐、安防等领域的应用。

📄 摘要(原文)

Despite significant progress in video-language modeling, hallucinations remain a persistent challenge in Video Large Language Models (Vid-LLMs), referring to outputs that appear plausible yet contradict the content of the input video. This survey presents a comprehensive analysis of hallucinations in Vid-LLMs and introduces a systematic taxonomy that categorizes them into two core types: dynamic distortion and content fabrication, each comprising two subtypes with representative cases. Building on this taxonomy, we review recent advances in the evaluation and mitigation of hallucinations, covering key benchmarks, metrics, and intervention strategies. We further analyze the root causes of dynamic distortion and content fabrication, which often result from limited capacity for temporal representation and insufficient visual grounding. These insights inform several promising directions for future work, including the development of motion-aware visual encoders and the integration of counterfactual learning techniques. This survey consolidates scattered progress to foster a systematic understanding of hallucinations in Vid-LLMs, laying the groundwork for building robust and reliable video-language systems. An up-to-date curated list of related works is maintained at https://github.com/hukcc/Awesome-Video-Hallucination .