INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

📄 arXiv: 2603.11481v1 📥 PDF

作者: Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen

分类: cs.CV, cs.AI

发布日期: 2026-03-12


💡 一句话要点

INFACT:用于诊断视频-LLM中诱导的不忠实性和事实性幻觉的基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 幻觉检测 基准测试 忠实性 事实性 时间敏感性 多模态学习

📋 核心要点

  1. 现有Video-LLM在忠实性和事实性方面存在幻觉问题,现有基准测试覆盖范围有限,且主要在理想环境下评估。
  2. INFACT基准测试通过构建包含真实和合成视频的QA数据集,并引入多种诱导模式,来诊断Video-LLM的可靠性。
  3. 实验表明,基础模式下的高准确率并不意味着在诱导模式下同样可靠,时间干预对模型性能影响最大。

📝 摘要(中文)

尽管视频大语言模型(Video-LLMs)取得了快速进展,但由于幻觉问题,它们仍然不可靠。幻觉是指与视频证据(忠实性)或可验证的世界知识(事实性)相矛盾的输出。现有的基准测试对事实性幻觉的覆盖有限,并且主要在干净的环境中评估模型。我们引入了 extsc{INFACT},这是一个诊断基准,包含9,800个QA实例,具有针对忠实性和事实性的细粒度分类,涵盖真实和合成视频。 extsc{INFACT}在四种模式下评估模型:基础(干净)、视觉退化、证据损坏和时间干预(针对顺序敏感的项目)。在诱导模式下的可靠性使用抵抗率(RR)和时间敏感性得分(TSS)进行量化。对14个代表性Video-LLM的实验表明,较高的基础模式准确性并不能可靠地转化为诱导模式下更高的可靠性,证据损坏会降低稳定性,而时间干预会产生最大的退化。值得注意的是,许多开源基线在事实性方面表现出接近零的TSS,表明在顺序敏感问题上存在明显的时间惯性。

🔬 方法详解

问题定义:论文旨在解决Video-LLM中存在的幻觉问题,即模型输出与视频内容或常识知识相悖。现有方法主要在干净数据集上评估模型,忽略了真实场景中可能存在的视觉退化、证据损坏和时间顺序干扰等因素,导致模型在实际应用中表现不佳。

核心思路:论文的核心思路是通过构建一个更具挑战性的诊断基准测试INFACT,来全面评估Video-LLM在不同干扰因素下的可靠性。该基准测试不仅包含真实和合成视频,还引入了视觉退化、证据损坏和时间干预等诱导模式,以模拟真实场景中的各种干扰。

技术框架:INFACT基准测试包含以下几个关键组成部分:1) 包含9800个QA实例的数据集,涵盖忠实性和事实性两个方面;2) 四种评估模式:基础模式(干净数据)、视觉退化模式、证据损坏模式和时间干预模式;3) 两种评估指标:抵抗率(RR)和时间敏感性得分(TSS)。整体流程是,首先在不同模式下运行Video-LLM,然后根据模型的回答计算RR和TSS,从而评估模型的可靠性。

关键创新:INFACT的关键创新在于其诊断性设计,通过引入多种诱导模式,可以更全面地评估Video-LLM的可靠性。与现有基准测试相比,INFACT更关注模型在真实场景中的表现,并提供了更细粒度的评估指标。此外,INFACT还特别关注了模型对时间顺序的敏感性,这对于理解视频内容至关重要。

关键设计:INFACT数据集包含真实视频和合成视频,以保证数据集的多样性。视觉退化模式通过对视频进行模糊、噪声等处理来模拟真实场景中的视觉干扰。证据损坏模式通过修改视频中的关键信息来测试模型对证据的依赖性。时间干预模式通过改变视频帧的顺序来测试模型对时间顺序的敏感性。抵抗率(RR)衡量模型在诱导模式下保持正确预测的能力。时间敏感性得分(TSS)衡量模型对时间顺序变化的敏感程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使在基础模式下表现良好的Video-LLM,在诱导模式下也可能表现出较低的可靠性。证据损坏和时间干预对模型性能影响显著,许多开源模型在事实性方面的时间敏感性得分接近于零,表明模型对时间顺序的变化不敏感。这些发现揭示了现有Video-LLM的局限性,为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于视频内容理解、智能监控、自动驾驶等领域。通过更全面地评估Video-LLM的可靠性,可以提高这些模型在实际应用中的性能和安全性。未来,该基准测试可以促进Video-LLM的鲁棒性和可靠性研究,推动相关技术的发展。

📄 摘要(原文)

Despite rapid progress, Video Large Language Models (Video-LLMs) remain unreliable due to hallucinations, which are outputs that contradict either video evidence (faithfulness) or verifiable world knowledge (factuality). Existing benchmarks provide limited coverage of factuality hallucinations and predominantly evaluate models only in clean settings. We introduce \textsc{INFACT}, a diagnostic benchmark comprising 9{,}800 QA instances with fine-grained taxonomies for faithfulness and factuality, spanning real and synthetic videos. \textsc{INFACT} evaluates models in four modes: Base (clean), Visual Degradation, Evidence Corruption, and Temporal Intervention for order-sensitive items. Reliability under induced modes is quantified using Resist Rate (RR) and Temporal Sensitivity Score (TSS). Experiments on 14 representative Video-LLMs reveal that higher Base-mode accuracy does not reliably translate to higher reliability in the induced modes, with evidence corruption reducing stability and temporal intervention yielding the largest degradation. Notably, many open-source baselines exhibit near-zero TSS on factuality, indicating pronounced temporal inertia on order-sensitive questions.