SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence
作者: Yulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius
分类: cs.CV
发布日期: 2026-05-29
💡 一句话要点
SVI-Bench:用于战略视频智能的动态微观世界基准测试
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 战略视频智能 视频理解 因果推理 多智能体系统 基准测试 团队运动 智能体合成
📋 核心要点
- 现有视频智能基准缺乏对因果推理和战略规划能力的有效评估,真实视频缺少ground truth,合成环境缺乏真实复杂性。
- SVI-Bench利用团队运动的动态特性,构建大规模、可验证的基准,用于评估模型在动态场景理解、因果推理、战略模拟和智能体合成方面的能力。
- 实验表明,现有模型在感知任务上表现良好,但在更高层次的认知任务(特别是智能体任务)上性能显著下降,揭示了当前模型的局限性。
📝 摘要(中文)
真正的视频智能不仅仅是识别可见内容,还需要推理事件发生的原因,预测不同条件下会发生的变化,并决定下一步该做什么。我们将这种从感知到因果推理、模拟再到战略规划的演进称为战略视频智能(SVI)。目前还没有基准能够评估这种能力栈:真实视频缺乏因果和战略问题的可验证的ground truth,而合成环境牺牲了真实多智能体系统的复杂性。为了弥合这一差距,我们引入了SVI-Bench,这是一个大规模基准,它利用团队运动作为动态微观世界,结合了真实世界多智能体交互的复杂性(10-22个智能体在对抗压力下做出协调决策)与明确规则和明确结果的可验证性。SVI-Bench包含大约35K小时的广播视频、15M个带注释的动作、15K小时的专家评论、23K份比赛报告以及来自篮球、足球和曲棍球的103K条结构化统计记录,所有这些都是通过一个数据引擎构建的,该引擎将原始比赛数据转换为密集的、交叉引用的语料库。我们将评估组织成9个任务,跨越一个渐进的四支柱层次结构:动态场景理解、因果推理、战略模拟和智能体合成。通过评估强大的多模态和智能体基线,我们发现了一个能力悬崖:模型在感知任务上表现出色,在细粒度动作问答中达到约73%,但在每个连续的认知水平上都会急剧下降。智能体任务被证明是最困难的:当需要自主收集和整合来自1.8M个片段的证据时,最强大的模型仅达到5%的准确率。
🔬 方法详解
问题定义:现有视频智能评估体系无法有效衡量模型在因果推理和战略规划方面的能力。真实世界视频数据缺乏可靠的因果关系标注,而合成环境又难以模拟真实世界多智能体交互的复杂性。这导致模型难以真正理解视频背后的“为什么”和“下一步”。
核心思路:利用团队运动作为动态微观世界,其规则明确、结果可验证,同时又包含复杂的多智能体交互。通过构建大规模的、结构化的数据集,并设计一系列任务,来评估模型在不同认知层次上的能力,从而推动战略视频智能的发展。
技术框架:SVI-Bench包含一个数据引擎,用于将原始比赛数据(广播视频、动作标注、专家评论、比赛报告、统计记录)转换为密集的、交叉引用的语料库。评估体系包含四个层次:动态场景理解、因果推理、战略模拟和智能体合成。每个层次包含多个具体任务,例如细粒度动作问答、事件原因推断、策略效果预测和自主决策。
关键创新:SVI-Bench的核心创新在于其将团队运动作为评估战略视频智能的载体。这种方法既保证了数据的可验证性,又保留了真实世界多智能体交互的复杂性。此外,SVI-Bench构建了一个全面的数据引擎,能够将多种来源的数据整合在一起,形成一个丰富的、结构化的知识库。
关键设计:SVI-Bench的数据集包含35K小时的广播视频和15M个动作标注。评估任务的设计涵盖了从低层次的感知到高层次的战略规划。智能体合成任务要求模型自主地从1.8M个片段中收集和整合证据,以做出决策。评估指标包括准确率、召回率等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有模型在动态场景理解任务上表现较好(细粒度动作问答准确率约为73%),但在因果推理、战略模拟和智能体合成等更高层次的认知任务上性能显著下降。在最困难的智能体合成任务中,最强模型的准确率仅为5%,表明现有模型在自主决策和知识整合方面存在巨大差距。
🎯 应用场景
SVI-Bench的研究成果可应用于体育赛事分析、自动驾驶、机器人导航、智能监控等领域。通过提升模型对视频内容的深层理解和推理能力,可以实现更智能的决策和控制,例如自动生成比赛战术分析报告、预测交通状况并规划最优路线、以及在复杂环境中进行自主导航。
📄 摘要(原文)
True video intelligence demands more than recognizing what is visible: it requires reasoning about why events unfold, predicting what would change under different conditions, and deciding what to do next. We refer to this progression, from perception through causal reasoning and simulation to strategic planning, as Strategic Video Intelligence (SVI). No existing benchmark evaluates this capability stack: in-the-wild videos lack verifiable ground truth for causal and strategic questions, while synthetic environments sacrifice the complexity of real multi-agent systems. To bridge this gap, we introduce SVI-Bench, a large-scale benchmark that leverages team sports as a dynamic microworld, combining the complexity of real-world multi-agent interaction (10-22 agents making coordinated decisions under adversarial pressure) with the verifiability of explicit rules and definitive outcomes. SVI-Bench comprises approximately 35K hours of broadcast video, 15M annotated actions, 15K hours of expert commentary, 23K game reports, and 103K structured statistical records across basketball, soccer, and hockey, all constructed via a data engine that transforms raw game data into a dense, cross-referenced corpus. We organize evaluation into 9 tasks spanning a progressive four-pillar hierarchy: Dynamic Scene Understanding, Causal Reasoning, Strategic Simulation, and Agentic Synthesis. Evaluating strong multimodal and agentic baselines, we find a capability cliff: models perform competently on perceptual tasks, achieving approximately 73% on fine-grained action QA, but degrade sharply at each successive cognitive level. Agentic tasks prove hardest: the strongest model achieves only 5% accuracy when required to autonomously gather and integrate evidence across a corpus of 1.8M clips.