CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models

📄 arXiv: 2601.04778v1 📥 PDF

作者: Tobia Poppi, Burak Uzkent, Amanmeet Garg, Lucas Porto, Garin Kessler, Yezhou Yang, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, Florian Schiffers

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2026-01-08


💡 一句话要点

提出CounterVid框架,通过对抗视频生成缓解视频语言模型中的动作和时间幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频语言模型 对抗视频生成 幻觉缓解 时间推理 动作识别 扩散模型 直接偏好优化

📋 核心要点

  1. 视频语言模型易受动作和时间幻觉影响,现有方法过度依赖语言先验,忽略了细粒度视觉动态。
  2. 提出CounterVid框架,通过生成仅在动作或时间结构上不同的对抗视频,增强模型对视觉信息的关注。
  3. 引入MixDPO优化方法,结合文本和视觉偏好进行微调,在时间排序和幻觉基准测试中取得显著提升。

📝 摘要(中文)

视频语言模型(VLMs)在多模态理解方面表现出色,但仍容易产生幻觉,尤其是在推理动作和时间顺序时。现有的缓解策略,如文本过滤或随机视频扰动,通常无法解决根本原因:过度依赖语言先验而非细粒度的视觉动态。我们提出了一个可扩展的对抗视频生成框架,该框架合成仅在动作或时间结构上不同的视频,同时保留场景上下文。我们的流程结合了多模态LLM用于动作提议和编辑指导,以及基于扩散的图像和视频模型,以大规模生成语义硬负样本。使用此框架,我们构建了CounterVid,一个包含约2.6万个偏好对的合成数据集,目标是动作识别和时间推理。我们进一步引入了MixDPO,一种统一的直接偏好优化方法,可以联合利用文本和视觉偏好。使用MixDPO微调Qwen2.5-VL可以产生持续的改进,尤其是在时间排序方面,并有效地转移到标准视频幻觉基准测试中。代码和模型将公开提供。

🔬 方法详解

问题定义:视频语言模型(VLMs)在理解视频内容时,容易产生幻觉,尤其是在涉及动作识别和时间顺序推理时。现有的缓解策略,如文本过滤或随机视频扰动,效果有限,因为它们没有解决模型过度依赖语言先验的问题,而忽略了视频中细粒度的视觉动态信息。

核心思路:核心思路是通过生成对抗样本来训练模型,使其更加关注视频中的视觉信息。具体来说,生成与原始视频在动作或时间结构上有所不同的视频,但保持场景上下文不变。这样可以迫使模型区分细微的视觉差异,从而减少对语言先验的依赖。

技术框架:整个框架包含以下几个主要模块:1) 使用多模态LLM进行动作提议,确定需要修改的动作;2) 使用多模态LLM进行编辑指导,确保生成的视频在语义上合理;3) 使用基于扩散的图像和视频模型生成对抗视频;4) 构建包含原始视频和对抗视频的偏好对数据集CounterVid;5) 使用MixDPO方法,结合文本和视觉偏好,对视频语言模型进行微调。

关键创新:该论文的关键创新在于提出了一种可扩展的对抗视频生成框架,能够大规模生成语义硬负样本。与传统的随机扰动方法不同,该框架能够精确控制对抗样本的生成过程,确保对抗样本在动作或时间结构上与原始视频存在差异,从而更好地训练模型。此外,MixDPO方法也是一个创新点,它能够同时利用文本和视觉偏好,更有效地优化视频语言模型。

关键设计:在对抗视频生成方面,使用了基于扩散的图像和视频模型,例如Stable Diffusion,并结合了多模态LLM的指导,以确保生成视频的质量和语义一致性。在MixDPO方法中,设计了一个损失函数,可以同时考虑文本和视觉偏好,并根据不同的任务调整权重。CounterVid数据集包含了约2.6万个偏好对,涵盖了各种动作和时间顺序推理场景。

📊 实验亮点

通过在Qwen2.5-VL模型上使用MixDPO进行微调,该方法在时间排序任务上取得了显著的改进,并且能够有效地迁移到标准的视频幻觉基准测试中。实验结果表明,该方法能够有效地减少视频语言模型中的幻觉问题,提高模型的性能。

🎯 应用场景

该研究成果可应用于提升视频内容理解、视频检索、视频编辑等领域。通过减少视频语言模型中的幻觉,可以提高这些应用在实际场景中的可靠性和准确性。未来,该方法可以扩展到更复杂的视频理解任务,例如视频摘要、视频问答等。

📄 摘要(原文)

Video-language models (VLMs) achieve strong multimodal understanding but remain prone to hallucinations, especially when reasoning about actions and temporal order. Existing mitigation strategies, such as textual filtering or random video perturbations, often fail to address the root cause: over-reliance on language priors rather than fine-grained visual dynamics. We propose a scalable framework for counterfactual video generation that synthesizes videos differing only in actions or temporal structure while preserving scene context. Our pipeline combines multimodal LLMs for action proposal and editing guidance with diffusion-based image and video models to generate semantic hard negatives at scale. Using this framework, we build CounterVid, a synthetic dataset of ~26k preference pairs targeting action recognition and temporal reasoning. We further introduce MixDPO, a unified Direct Preference Optimization approach that jointly leverages textual and visual preferences. Fine-tuning Qwen2.5-VL with MixDPO yields consistent improvements, notably in temporal ordering, and transfers effectively to standard video hallucination benchmarks. Code and models will be made publicly available.