CCTVBench: Contrastive Consistency Traffic VideoQA Benchmark for Multimodal LLMs

作者: Xingcheng Zhou, Hao Guo, Rui Song, Walter Zimmer, Mingyu Liu, André Schamschurko, Hu Cao, Alois Knoll

分类: cs.CV

发布日期: 2026-04-22

💡 一句话要点

CCTVBench：用于多模态LLM的对比一致性交通视频问答基准

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频问答 对比学习 交通安全 多模态学习 反事实推理

📋 核心要点

现有视频问答模型在交通安全推理中缺乏对比一致性，难以区分真实危险和相似但错误的反事实场景。
CCTVBench通过配对真实事故视频和反事实视频，并设计互斥问题，来评估模型的对比推理能力。
实验表明现有视频LLM在对比一致性方面表现不佳，论文提出了C-TCD对比解码方法来提升性能。

📝 摘要（中文）

本研究提出了CCTVBench，一个对比一致性交通视频问答基准，旨在评估模型在安全关键的交通推理任务中的表现。该基准包含真实事故视频和世界模型生成的反事实对应视频对，以及最小差异且互斥的假设问题。CCTVBench对每个视频问题四元组强制执行单一结构化决策模式，并提供可操作的诊断，将失败分解为正例遗漏、正例交换、负例幻觉和互斥性违规，同时区分视频和问题一致性。对开源和专有视频LLM的实验表明，标准单实例问答指标与四元组级别的对比一致性之间存在巨大差距，其中不可靠的“以上皆非”拒绝是一个关键瓶颈。最后，引入C-TCD，一种对比解码方法，利用语义互斥的对应视频作为推理时的对比输入，从而提高实例级别的问答和对比一致性。

🔬 方法详解

问题定义：现有视频问答模型在交通场景下的安全推理能力不足，尤其是在需要区分真实危险和反事实场景时。模型往往无法保证对比一致性，即在相似场景下给出合理且互斥的答案。现有方法缺乏对这种对比推理能力的有效评估和提升手段。

核心思路：论文的核心思路是构建一个专门的对比一致性评估基准CCTVBench，并设计一种对比解码方法C-TCD来提升模型的对比推理能力。通过配对真实事故视频和世界模型生成的反事实视频，并设计互斥的假设问题，来强制模型进行对比推理。

技术框架：CCTVBench基准包含真实事故视频和反事实视频对，以及针对每对视频设计的互斥问题四元组。评估流程包括：1) 使用视频LLM回答问题；2) 根据预定义的决策模式评估答案的一致性；3) 将错误分解为正例遗漏、正例交换、负例幻觉和互斥性违规等类型。C-TCD方法则在推理阶段，利用语义互斥的对应视频作为对比输入，引导模型给出更一致的答案。

关键创新：CCTVBench基准的创新在于其对比一致性的评估方式，能够更全面地评估模型在安全关键场景下的推理能力。C-TCD方法的创新在于利用对比信息来提升模型的推理一致性，这是一种有效的提升模型鲁棒性的方法。

关键设计：CCTVBench的关键设计包括：1) 使用真实事故视频和世界模型生成的反事实视频，保证了数据的真实性和可控性；2) 设计互斥问题四元组，强制模型进行对比推理；3) 定义了清晰的决策模式和错误分类方法，方便分析模型的不足。C-TCD的关键设计在于如何有效地利用对比视频的信息，例如可以通过注意力机制或者特征融合等方式将对比视频的信息融入到模型的推理过程中。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有视频LLM在CCTVBench上的对比一致性表现远低于单实例问答指标，表明模型在对比推理方面存在明显不足。C-TCD方法能够显著提升模型的对比一致性和单实例问答性能，验证了对比解码的有效性。例如，C-TCD在某些模型上将对比一致性提高了超过10%。

🎯 应用场景

该研究成果可应用于自动驾驶、智能交通监控等安全关键领域。通过提高模型在复杂交通场景下的推理能力，可以减少事故发生，提升交通安全。未来，该基准和方法可以推广到其他需要高可靠性和鲁棒性的应用场景，例如医疗诊断、金融风控等。

📄 摘要（原文）

Safety-critical traffic reasoning requires contrastive consistency: models must detect true hazards when an accident occurs, and reliably reject plausible-but-false hypotheses under near-identical counterfactual scenes. We present CCTVBench, a Contrastive Consistency Traffic VideoQA Benchmark built on paired real accident videos and world-model-generated counterfactual counterparts, together with minimally different, mutually exclusive hypothesis questions. CCTVBench enforces a single structured decision pattern over each video question quadruple and provides actionable diagnostics that decompose failures into positive omission, positive swap, negative hallucination, and mutual-exclusivity violation, while separating video versus question consistency. Experiments across open-source and proprietary video LLMs reveal a large and persistent gap between standard per-instance QA metrics and quadruple-level contrastive consistency, with unreliable none-of-the-above rejection as a key bottleneck. Finally, we introduce C-TCD, a contrastive decoding approach leveraging a semantically exclusive counterpart video as the contrast input at inference time, improving both instance-level QA and contrastive consistency.

CCTVBench: Contrastive Consistency Traffic VideoQA Benchmark for Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理