Mitigating Hallucinations in Video Large Language Models via Spatiotemporal-Semantic Contrastive Decoding

📄 arXiv: 2601.22574v1 📥 PDF

作者: Yuansheng Gao, Jinman Zhao, Tong Zhang, Xingguo Xu, Han Bao, Zonghui Wang, Wenzhi Chen

分类: cs.CV, cs.AI

发布日期: 2026-01-30

备注: Preprint


💡 一句话要点

提出时空语义对比解码,缓解视频大语言模型中的幻觉问题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 幻觉缓解 对比学习 时空语义 负样本构建

📋 核心要点

  1. 现有视频大语言模型缓解幻觉的方法依赖启发式设计,无法精确捕捉幻觉的根本原因和细粒度时空语义关联。
  2. 提出时空语义对比解码策略,通过构建负特征并进行对比解码,抑制视频大语言模型中的幻觉现象。
  3. 实验结果表明,该方法有效缓解了幻觉,同时保留了模型原有的视频理解和推理能力。

📝 摘要(中文)

视频大语言模型在视频理解、问答和推理等任务中表现出色,但仍存在幻觉问题,即生成与视频内容或事实证据不符的输出。现有的缓解视频幻觉的解码方法虽然考虑了视频的时空特性,但主要依赖于启发式设计,未能精确捕捉幻觉的根本原因及其细粒度的时间和语义相关性,导致在复杂场景中鲁棒性和泛化性有限。为了更有效地缓解视频幻觉,我们提出了一种新的解码策略,称为时空语义对比解码。该策略通过故意扰乱视频特征的时空一致性和语义关联来构建负特征,并在推理过程中通过与原始视频特征的对比解码来抑制视频幻觉。大量实验表明,我们的方法不仅有效地缓解了幻觉的发生,而且保留了模型的一般视频理解和推理能力。

🔬 方法详解

问题定义:视频大语言模型在生成文本描述时,容易产生与视频内容不符的“幻觉”现象。现有方法主要依赖人工设计的启发式规则,难以捕捉幻觉产生的根本原因,并且在复杂场景下的鲁棒性和泛化性较差。

核心思路:通过对比学习的思想,构建与原始视频特征形成对比的负样本,从而在解码过程中抑制模型产生幻觉。核心在于,通过扰乱视频特征的时空一致性和语义关联来构建负样本,使得模型能够区分真实信息和虚假信息。

技术框架:整体框架包括视频特征提取、负样本构建和对比解码三个主要阶段。首先,使用预训练的视频特征提取器提取视频的时空特征。然后,通过扰乱时空一致性和语义关联来构建负样本特征。最后,在解码阶段,使用对比学习的目标函数,鼓励模型生成与原始视频特征一致的文本描述,同时抑制与负样本特征相关的文本生成。

关键创新:关键创新在于提出了时空语义对比解码策略,通过构建负样本并进行对比学习,直接针对幻觉产生的根源进行抑制。与现有方法相比,该方法不需要人工设计复杂的规则,而是通过数据驱动的方式学习如何区分真实信息和虚假信息。

关键设计:负样本的构建方式是关键设计之一。论文通过随机打乱视频帧的顺序,或者替换视频帧中的语义信息,来破坏视频的时空一致性和语义关联。对比学习的损失函数也至关重要,论文采用了一种基于InfoNCE的对比损失函数,鼓励模型学习到区分原始视频特征和负样本特征的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的时空语义对比解码方法能够有效缓解视频大语言模型中的幻觉问题,并在多个视频理解和问答数据集上取得了显著的性能提升。具体数据未知,但强调了在缓解幻觉的同时,保留了模型原有的视频理解和推理能力。

🎯 应用场景

该研究成果可应用于各种需要视频内容理解和文本生成的场景,例如视频摘要、视频问答、视频字幕生成等。通过减少视频大语言模型中的幻觉,可以提高生成文本的准确性和可靠性,从而提升用户体验和应用价值。未来,该方法有望推广到更广泛的多模态学习任务中。

📄 摘要(原文)

Although Video Large Language Models perform remarkably well across tasks such as video understanding, question answering, and reasoning, they still suffer from the problem of hallucination, which refers to generating outputs that are inconsistent with explicit video content or factual evidence. However, existing decoding methods for mitigating video hallucinations, while considering the spatiotemporal characteristics of videos, mostly rely on heuristic designs. As a result, they fail to precisely capture the root causes of hallucinations and their fine-grained temporal and semantic correlations, leading to limited robustness and generalization in complex scenarios. To more effectively mitigate video hallucinations, we propose a novel decoding strategy termed Spatiotemporal-Semantic Contrastive Decoding. This strategy constructs negative features by deliberately disrupting the spatiotemporal consistency and semantic associations of video features, and suppresses video hallucinations through contrastive decoding against the original video features during inference. Extensive experiments demonstrate that our method not only effectively mitigates the occurrence of hallucinations, but also preserves the general video understanding and reasoning capabilities of the model.