TraceAV-Bench: Benchmarking Multi-Hop Trajectory Reasoning over Long Audio-Visual Videos
作者: Hengyi Feng, Hao Liang, Mingrui Chen, Bohan Zeng, Meiyi Qiang, Zhengyang Zhao, Zimo Meng, Zeang Sheng, Wentao Zhang
分类: cs.CV
发布日期: 2026-05-08
💡 一句话要点
提出TraceAV-Bench基准,旨在解决长视频中多跳视听轨迹推理与幻觉鲁棒性评估难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多模态推理 视听融合 多模态幻觉 基准测试 OmniLLM
📋 核心要点
- 现有视听基准多局限于短片段或单跳推理,无法有效评估模型在长视频中跨模态、跨时间跨度的复杂逻辑链条处理能力。
- 提出TraceAV-Bench基准,通过构建包含多跳推理链的长视频数据集,系统性地评估模型在长时序视听内容中的逻辑推理与抗幻觉能力。
- 实验显示当前主流OmniLLM模型表现仍有较大提升空间,且揭示了模型通用推理能力与抗幻觉鲁棒性之间存在显著的解耦特征。
📝 摘要(中文)
现实世界的视听理解需要串联稀疏、时间分散且跨越视听流的证据,而现有基准测试往往局限于短视频片段、模态隔离或单跳感知任务。为此,本文提出了TraceAV-Bench,这是首个旨在联合评估长视频视听轨迹多跳推理能力及多模态幻觉鲁棒性的基准。该数据集包含578个长视频(总计339.5小时)上的2,200个经过严格验证的选择题,涵盖4个评估维度和15个子任务。每个问题均基于平均3.68跳、跨度15.1分钟的显式推理链构建。实验表明,即使是顶尖的OmniLLM模型在TraceAV-Bench上也面临巨大挑战,最强闭源模型Gemini 3.1 Pro仅达到68.29%的准确率,且多模态幻觉鲁棒性与通用推理能力存在解耦现象。
🔬 方法详解
问题定义:现有模型在处理长视频时,难以完成跨越长时间跨度、涉及视听多模态证据的复杂多跳推理任务,且容易产生幻觉。现有数据集缺乏对这种长时序、多跳逻辑链条的系统性评估。
核心思路:通过构建一个大规模、长时序、具备显式推理链的视听数据集,强制模型在长视频上下文中进行多步逻辑推导,从而评估其对视听信息的深度整合能力与忠实度。
技术框架:数据集构建采用三步半自动化流水线:首先进行视频采集与预处理,其次通过多模态大模型辅助生成推理链,最后由人工进行严格的质量保证(QA)审核,确保推理链的逻辑严密性与事实准确性。
关键创新:引入了“多跳推理链”作为评估核心,要求模型不仅要识别单点信息,还需在长达15分钟的视频中串联分散的视听证据;同时,将多模态幻觉鲁棒性评估纳入统一框架,揭示了推理能力与幻觉控制的非线性关系。
关键设计:数据集包含2,200个精心设计的选择题,平均推理深度为3.68跳,覆盖了从动作识别到因果推断等15个子任务,为评估OmniLLM的复杂任务处理能力提供了高难度的基准测试。
🖼️ 关键图片
📊 实验亮点
实验评估了多个代表性OmniLLM模型,结果显示该基准极具挑战性。最强闭源模型Gemini 3.1 Pro准确率仅为68.29%,开源模型Ming-Flash-Omni-2.0为51.70%,表明模型在长时序推理上仍有巨大提升空间。此外,研究发现多模态幻觉鲁棒性与通用推理性能在模型中表现出明显的解耦特征。
🎯 应用场景
该研究可广泛应用于视频监控分析、自动驾驶场景理解、长视频内容检索及智能视频剪辑等领域。其核心价值在于推动多模态大模型从简单的“看图说话”向具备长时序逻辑推理与事实忠实度的“深度理解”方向演进,对构建更可靠的通用人工智能系统具有重要意义。
📄 摘要(原文)
Real-world audio-visual understanding requires chaining evidence that is sparse, temporally dispersed, and split across the visual and auditory streams, whereas existing benchmarks largely fail to evaluate this capability. They restrict videos to short clips, isolate modalities, or reduce questions to one-hop perception. We introduce TraceAV-Bench, the first benchmark to jointly evaluate multi-hop reasoning over long audio-visual trajectories and multimodal hallucination robustness. TraceAV-Bench comprises 2,200 rigorously validated multiple-choice questions over 578 long videos, totaling 339.5 hours, spanning 4 evaluation dimensions and 15 sub-tasks. Each question is grounded in an explicit reasoning chain that averages 3.68 hops across a 15.1-minute temporal span. The dataset is built by a three-step semi-automated pipeline followed by a strict quality assurance process. Evaluation of multiple representative OmniLLMs on TraceAV-Bench reveals that the benchmark poses a persistent challenge across all models, with the strongest closed-source model (Gemini 3.1 Pro) reaching only 68.29% on general tasks, and the best open-source model (Ming-Flash-Omni-2.0) reaching 51.70%, leaving substantial headroom. Moreover, we find that robustness to multimodal hallucination is largely decoupled from general multimodal reasoning performance. We anticipate that TraceAV-Bench will stimulate further research toward OmniLLMs that can reason coherently and faithfully over long-form audio-visual content.