A Skill-augmented Agentic Framework and Benchmark for Multi-Video Understanding

📄 arXiv: 2603.14733v1 📥 PDF

作者: Yue Zhang, Liqiang Jing, Jia Li, Yapeng Tian, Xinya Du, Yunhui Guo, Vibhav Gogate

分类: cs.CV

发布日期: 2026-03-16


💡 一句话要点

提出SAMA框架和MVX-Bench基准,用于提升多视频理解中的跨视频推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多视频理解 跨视频推理 技能增强代理 多模态学习 视觉问答

📋 核心要点

  1. 现有方法在多视频理解中存在训练-推理不匹配、信息损失和缺乏跨视频协调等问题。
  2. SAMA框架通过集成视觉工具、任务技能和冲突验证,实现迭代和结构化的多视频推理。
  3. 实验表明,SAMA在MVX-Bench基准上超越了现有方法,验证了其技能设计和冲突解决的有效性。

📝 摘要(中文)

多模态大型语言模型在单视频理解方面表现出色,但跨多视频推理能力仍然有限。现有方法通常将多个视频连接成单个输入进行直接推理,导致训练-推理不匹配、帧压缩造成信息损失以及缺乏显式的跨视频协调。同时,现有的多视频基准主要强调事件级比较,而身份级匹配、细粒度区分和结构化多步骤推理尚未得到充分探索。为了解决这些问题,我们引入了MVX-Bench,这是一个多视频跨维度基准,将11个经典的计算机视觉任务重新构建为一个统一的多视频问答框架,包含来自不同真实世界数据集的4,255个视频上的1,442个问题。我们进一步提出了SAMA,一个用于多视频理解的技能增强型代理框架,它集成了视觉工具、特定任务技能和冲突感知验证机制,以实现迭代和结构化的推理。实验结果表明,SAMA在MVX-Bench上优于强大的开源基线和GPT,并且消融实验验证了技能设计和冲突解决的有效性。

🔬 方法详解

问题定义:论文旨在解决多视频理解中,现有方法存在的跨视频推理能力不足的问题。现有方法通常简单地将多个视频拼接作为输入,忽略了视频间的关联性,导致信息损失和推理效率低下。此外,现有基准测试侧重于事件级别的比较,缺乏对身份识别、细粒度区分和多步骤推理的考察。

核心思路:论文的核心思路是构建一个技能增强的代理框架(SAMA),该框架能够像人类专家一样,利用各种视觉工具和任务相关的技能,逐步推理并解决多视频理解问题。通过引入冲突感知验证机制,提高推理的可靠性。

技术框架:SAMA框架主要包含以下几个模块:1) 视觉工具模块,提供各种视觉处理能力,例如目标检测、人脸识别等;2) 任务技能模块,针对不同的多视频理解任务,设计特定的技能,例如身份匹配、行为识别等;3) 代理模块,负责协调各个模块,进行迭代推理;4) 冲突感知验证模块,用于检测和解决推理过程中的冲突。整个流程是,代理接收多视频和问题,调用视觉工具和任务技能进行推理,并通过冲突感知验证模块进行修正,最终输出答案。

关键创新:SAMA的关键创新在于其技能增强的代理框架设计,以及冲突感知验证机制。与现有方法相比,SAMA能够更有效地利用多视频信息,进行结构化和迭代的推理。冲突感知验证机制能够提高推理的可靠性,减少错误。

关键设计:SAMA框架中的任务技能模块是针对不同任务定制的,例如,对于身份匹配任务,可以使用人脸识别模型提取人脸特征,然后进行匹配。冲突感知验证模块可以使用多种策略,例如,基于规则的验证、基于模型的验证等。具体实现细节取决于具体的任务和数据集。

📊 实验亮点

SAMA在MVX-Bench基准测试中取得了显著的性能提升,超越了现有的开源基线和GPT模型。具体而言,SAMA在身份匹配、细粒度区分和多步骤推理等任务上均取得了明显的优势,验证了其技能设计和冲突解决机制的有效性。消融实验表明,各个模块对整体性能均有贡献。

🎯 应用场景

该研究成果可应用于视频监控、智能安防、自动驾驶等领域。例如,在视频监控中,可以利用SAMA框架进行跨摄像头的人员追踪和行为分析。在自动驾驶中,可以利用SAMA框架进行多摄像头融合感知,提高环境感知的准确性和可靠性。未来,该研究有望推动多视频理解技术的发展,并为相关应用提供更强大的技术支持。

📄 摘要(原文)

Multimodal Large Language Models have achieved strong performance in single-video understanding, yet their ability to reason across multiple videos remains limited. Existing approaches typically concatenate multiple videos into a single input and perform direct inference, which introduces training-inference mismatch, information loss from frame compression, and a lack of explicit cross-video coordination. Meanwhile, current multi-video benchmarks primarily emphasize event-level comparison, leaving identity-level matching, fine-grained discrimination, and structured multi-step reasoning underexplored. To address these gaps, we introduce MVX-Bench, a Multi-Video Cross-Dimension Benchmark that reformulates 11 classical computer vision tasks into a unified multi-video question-answering framework, comprising 1,442 questions over 4,255 videos from diverse real-world datasets. We further propose SAMA, a Skill-Augmented Agentic Framework for Multi-Video Understanding, which integrates visual tools, task-specific skills, and a conflict-aware verification mechanism to enable iterative and structured reasoning. Experimental results show that SAMA outperforms strong open-source baselines and GPT on MVX-Bench, and ablations validate the effectiveness of skill design and conflict resolution.