TOC-Bench: A Temporal Object Consistency Benchmark for Video Large Language Models
作者: Junzhe Chen, Siyuan Meng, Yuxi Chen, Man Zhao, Xiaojie Guo
分类: cs.CV
发布日期: 2026-05-11
💡 一句话要点
提出TOC-Bench基准以评估视频大模型在物体时序一致性方面的推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 时序一致性 视频理解 基准测试 物体跟踪 多模态推理
📋 核心要点
- 现有视频基准侧重于粗粒度理解,难以评估模型在物体遮挡、状态转换等复杂场景下的时序一致性与身份保持能力。
- 提出TOC-Bench基准,通过物体轨迹锚定与三层时序必要性过滤协议,确保评估任务必须依赖视频时序证据而非语言先验。
- 实验揭示了当前主流Video-LLMs在事件计数、排序及幻觉检测方面的显著短板,证明了时序物体一致性仍是亟待解决的挑战。
📝 摘要(中文)
视频大语言模型(Video-LLMs)在通用视频理解方面取得了显著进展,但其保持时序物体一致性的能力尚未得到充分探索。现有基准主要关注事件识别、动作理解或粗粒度时序推理,忽略了模型在物体遮挡、消失、重现、状态转换及交互过程中保持身份、状态和时序连续性的能力。为此,本文提出了TOC-Bench,这是一个专门用于诊断Video-LLMs时序物体一致性的基准。TOC-Bench基于物体轨迹和结构化事件时间线构建,并通过三层时序必要性过滤协议,剔除了依赖语言先验或单帧线索的样本,最终保留了17,900个时序依赖项,并从中精选出2,323个高质量人工验证问答对。实验表明,尽管现有模型在通用基准上表现出色,但在事件计数、排序及身份敏感推理等方面仍存在严重缺陷。
🔬 方法详解
问题定义:当前Video-LLMs在处理长视频时,往往因缺乏对物体身份、状态演变及跨帧连续性的深度理解,导致在复杂时序逻辑任务上表现不佳。现有评估方法多依赖于单帧特征或语言偏见,无法真实反映模型对视频时序动态的感知能力。
核心思路:论文的核心思路是构建一个“以物体为中心”的诊断基准。通过将每个查询对象与具体的帧级轨迹和结构化事件时间线绑定,强制模型必须基于时序演变过程进行推理,从而消除模型利用语言先验或单帧捷径进行“猜题”的可能性。
技术框架:TOC-Bench的构建流程包含三个阶段:首先是基于物体轨迹的标注与事件时间线对齐;其次是执行三层时序必要性过滤协议,剔除不依赖时序信息的样本;最后是进行高质量的人工验证,确保问答对的逻辑严密性与视频内容的强相关性。
关键创新:最重要的创新在于“三层时序必要性过滤协议”。该协议通过对比实验,系统性地排除了仅凭单帧信息、语言先验或无序帧即可回答的题目,确保了剩余的17,900个样本必须依赖于视频的完整时序演变过程。
关键设计:该基准涵盖了10个诊断维度,包括物体遮挡、消失重现、状态转换等。在数据构建中,通过严格的轨迹锚定(Track-grounded)技术,将问答对与视频中的具体物体实例进行一一对应,从而实现对模型时序推理能力的精细化诊断。
🖼️ 关键图片
📊 实验亮点
实验对主流Video-LLMs进行了全面评测,结果显示模型在通用视频理解任务上表现优异,但在TOC-Bench的特定维度(如事件计数、排序、身份敏感推理)上表现出显著的性能下降。该基准成功剔除了60.7%的无效候选样本,最终构建了包含2,323个高质量问答对的测试集,有力证明了当前模型在处理复杂时序物体交互时仍存在严重的幻觉与逻辑缺失。
🎯 应用场景
该研究可广泛应用于视频大模型的性能评估与优化,特别是在自动驾驶、安防监控、机器人视觉等需要精确跟踪物体状态与行为逻辑的领域。通过TOC-Bench,开发者能更精准地定位模型在时序推理上的瓶颈,从而推动具备更强时序一致性与逻辑推理能力的下一代视频理解模型的发展。
📄 摘要(原文)
Video large language models (Video-LLMs) have achieved remarkable progress in general video understanding, yet their ability to maintain temporal object consistency remains insufficiently explored. Existing benchmarks primarily focus on event recognition, action understanding, or coarse temporal reasoning, but rarely evaluate whether a model can consistently preserve the identity, state, and temporal continuity of the same object across occlusion, disappearance, reappearance, state transitions, and cross-object interactions. As a result, current evaluations may overestimate temporal reasoning ability while overlooking failures in object-centric temporal coherence. To address this issue, we introduce TOC-Bench, a diagnostic benchmark specifically designed to evaluate temporal object consistency in Video-LLMs. TOC-Bench is explicitly object-track grounded, where each queried subject is associated with a per frame object trajectory and structured temporal event timeline. To ensure that benchmark items depend on temporally ordered visual evidence rather than language priors, single-frame shortcuts, or unordered frame cues, we propose a three-layer temporal-necessity filtering protocol that removes 60.7% of candidate QA pairs and retains 17,900 temporally dependent items spanning 10 diagnostic dimensions. From this filtered pool, we further construct a human-verified benchmark containing 2,323 high-quality QA pairs over 1,951 videos. Experiments on representative Video-LLMs show that temporal object consistency remains a major unsolved challenge. Current models exhibit substantial weaknesses in event counting, event ordering, identity-sensitive reasoning, and hallucination-aware verification, despite strong performance on general video understanding benchmarks.