3rd Place at CVPR 2026 CASTLE Challenge: Agentic Multi-View Long-Context Video Understanding via Hierarchical Knowledge Graph Retrieval

📄 arXiv: 2606.01933v1 📥 PDF

作者: Raghad Albusayes, Munirah Alyahya

分类: cs.CV

发布日期: 2026-06-01

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于层级知识图谱检索的Agentic多视角长视频理解框架,CVPR 2026 CASTLE挑战赛第三名

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多视角视频 知识图谱 Agentic框架 关系推理 视频分析 零样本学习

📋 核心要点

  1. 现有方法难以处理大规模、长上下文的多视角视频理解任务,尤其是在复杂推理方面。
  2. 论文提出一种免训练的Agentic框架,利用视频知识图谱和分层检索机制进行多跳关系推理。
  3. 实验结果表明,该框架在长上下文多视角视频流上实现了较高的零样本推理精度。

📝 摘要(中文)

本文介绍了我们在CVPR 2026 EgoVis Workshop的CASTLE 2026挑战赛中获得第三名的获胜方法。该挑战赛要求参赛者在海量多模态视频流中回答高度复杂的视觉、时空和语言问题,包括视觉计数、动作定位、多视角跟踪和说话人时序推理。底层数据集包含超过600小时由15个自我和外部摄像头源同步拍摄的镜头。为了应对这种环境的极端规模和长上下文需求,我们引入了一个针对长视频理解优化的免训练agentic框架。我们的框架引入了两个核心架构组件:i) 一个视频知识图谱,它映射静态和动态实体、它们的时间关系以及相交事件,以实现多跳关系推理;ii) 一个自适应agentic工作流,它通过分层检索和索引来解决复杂查询。实验结果表明,我们的框架在长上下文多视角流上实现了高零样本推理精度。我们的代码将在https://github.com/RaghadKhaled/CASTLE-Challenge-Framework 上发布。

🔬 方法详解

问题定义:该论文旨在解决多视角长视频理解中的复杂推理问题,包括视觉计数、动作定位、多视角跟踪和说话人时序推理等。现有方法难以有效处理长视频中的时序关系和多视角信息,尤其是在需要进行多跳推理的场景下,计算复杂度高,且难以泛化到新的场景。

核心思路:论文的核心思路是构建一个视频知识图谱,将视频中的实体、关系和事件进行结构化表示,并利用一个自适应的Agentic工作流,通过分层检索和索引,高效地从知识图谱中提取相关信息,从而实现多跳关系推理。这种方法避免了对整个视频进行全局分析,降低了计算复杂度,并提高了推理的准确性和效率。

技术框架:整体框架包含两个主要模块:视频知识图谱构建和Agentic工作流。首先,从多视角视频流中提取视觉、时空和语言特征,然后将这些特征映射到知识图谱中的节点和边,构建视频知识图谱。其次,Agentic工作流接收复杂查询,通过分层检索和索引,从知识图谱中提取相关信息,并进行推理,最终生成答案。

关键创新:该论文的关键创新在于将知识图谱和Agentic框架结合起来,用于解决多视角长视频理解问题。传统的视频理解方法通常依赖于深度学习模型进行端到端训练,而该论文提出的方法则利用知识图谱进行结构化推理,避免了对大量标注数据的依赖,并提高了模型的泛化能力。此外,Agentic工作流的设计使得模型能够自适应地选择合适的检索策略,从而提高了推理的效率。

关键设计:视频知识图谱的设计需要考虑如何有效地表示视频中的实体、关系和事件。Agentic工作流的分层检索和索引策略需要根据查询的复杂度和知识图谱的结构进行优化。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

该框架在CVPR 2026 CASTLE挑战赛中获得第三名,证明了其在长上下文多视角视频理解方面的有效性。实验结果表明,该框架在零样本设置下,能够实现较高的推理精度,表明其具有较强的泛化能力。具体的性能数据和对比基线在摘要中未详细说明,属于未知信息。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航、视频搜索等领域。例如,在智能监控中,可以利用该框架对监控视频进行分析,自动识别异常事件并进行预警。在自动驾驶中,可以利用该框架对车载摄像头拍摄的视频进行分析,理解周围环境并做出决策。该研究具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

This paper presents our winning methodology for the CASTLE 2026 Challenge at the CVPR 2026 EgoVis Workshop, where our team secured third place globally. The challenge tasks participants with answering highly complex visual, spatiotemporal, and verbal questions, including visual counting, action localization, multi-view tracking and speaker temporal reasoning, within massive, multimodal video streams. The underlying dataset consists of over 600 hours synchronized footage captured by 15 ego and exo camera sources. To tackle the extreme scale and long-context demands of this environment, we introduce a training-free agentic framework optimized for long-form video understanding. Our framework introduces two core architectural components: i) a Video Knowledge Graph that maps static and dynamic entities, their temporal relationships, and intersecting events to enable multi-hop relational reasoning, and ii) an adaptive agentic workflow that resolves complex queries through a hierarchical retrieval and indexing. Empirical results demonstrate that our framework achieves high zero-shot reasoning accuracy on long-context multi-view streams. Our code will be released at https://github.com/RaghadKhaled/CASTLE-Challenge-Framework.