A Skill-augmented Agentic Framework and Benchmark for Multi-Video Understanding

作者: Yue Zhang, Liqiang Jing, Jia Li, Yapeng Tian, Xinya Du, Yunhui Guo, Vibhav Gogate

分类: cs.CV

发布日期: 2026-03-16

💡 一句话要点

提出SAMA框架和MVX-Bench基准，用于提升多视频理解中的跨视频推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多视频理解 跨视频推理 技能增强代理 多模态学习 视觉问答

📋 核心要点

现有方法在多视频理解中存在训练-推理不匹配、信息损失和缺乏跨视频协调等问题。
SAMA框架通过集成视觉工具、任务技能和冲突验证，实现迭代和结构化的多视频推理。
实验表明，SAMA在MVX-Bench基准上超越了现有方法，验证了其技能设计和冲突解决的有效性。

📝 摘要（中文）

多模态大型语言模型在单视频理解方面表现出色，但跨多视频推理能力仍然有限。现有方法通常将多个视频连接成单个输入进行直接推理，导致训练-推理不匹配、帧压缩造成信息损失以及缺乏显式的跨视频协调。同时，现有的多视频基准主要强调事件级比较，而身份级匹配、细粒度区分和结构化多步骤推理尚未得到充分探索。为了解决这些问题，我们引入了MVX-Bench，这是一个多视频跨维度基准，将11个经典的计算机视觉任务重新构建为一个统一的多视频问答框架，包含来自不同真实世界数据集的4,255个视频上的1,442个问题。我们进一步提出了SAMA，一个用于多视频理解的技能增强型代理框架，它集成了视觉工具、特定任务技能和冲突感知验证机制，以实现迭代和结构化的推理。实验结果表明，SAMA在MVX-Bench上优于强大的开源基线和GPT，并且消融实验验证了技能设计和冲突解决的有效性。

🔬 方法详解

问题定义：论文旨在解决多视频理解中，现有方法存在的跨视频推理能力不足的问题。现有方法通常简单地将多个视频拼接作为输入，忽略了视频间的关联性，导致信息损失和推理效率低下。此外，现有基准测试侧重于事件级别的比较，缺乏对身份识别、细粒度区分和多步骤推理的考察。

核心思路：论文的核心思路是构建一个技能增强的代理框架（SAMA），该框架能够像人类专家一样，利用各种视觉工具和任务相关的技能，逐步推理并解决多视频理解问题。通过引入冲突感知验证机制，提高推理的可靠性。

技术框架：SAMA框架主要包含以下几个模块：1) 视觉工具模块，提供各种视觉处理能力，例如目标检测、人脸识别等；2) 任务技能模块，针对不同的多视频理解任务，设计特定的技能，例如身份匹配、行为识别等；3) 代理模块，负责协调各个模块，进行迭代推理；4) 冲突感知验证模块，用于检测和解决推理过程中的冲突。整个流程是，代理接收多视频和问题，调用视觉工具和任务技能进行推理，并通过冲突感知验证模块进行修正，最终输出答案。

关键创新：SAMA的关键创新在于其技能增强的代理框架设计，以及冲突感知验证机制。与现有方法相比，SAMA能够更有效地利用多视频信息，进行结构化和迭代的推理。冲突感知验证机制能够提高推理的可靠性，减少错误。

关键设计：SAMA框架中的任务技能模块是针对不同任务定制的，例如，对于身份匹配任务，可以使用人脸识别模型提取人脸特征，然后进行匹配。冲突感知验证模块可以使用多种策略，例如，基于规则的验证、基于模型的验证等。具体实现细节取决于具体的任务和数据集。

📊 实验亮点

SAMA在MVX-Bench基准测试中取得了显著的性能提升，超越了现有的开源基线和GPT模型。具体而言，SAMA在身份匹配、细粒度区分和多步骤推理等任务上均取得了明显的优势，验证了其技能设计和冲突解决机制的有效性。消融实验表明，各个模块对整体性能均有贡献。

🎯 应用场景

该研究成果可应用于视频监控、智能安防、自动驾驶等领域。例如，在视频监控中，可以利用SAMA框架进行跨摄像头的人员追踪和行为分析。在自动驾驶中，可以利用SAMA框架进行多摄像头融合感知，提高环境感知的准确性和可靠性。未来，该研究有望推动多视频理解技术的发展，并为相关应用提供更强大的技术支持。

📄 摘要（原文）

Multimodal Large Language Models have achieved strong performance in single-video understanding, yet their ability to reason across multiple videos remains limited. Existing approaches typically concatenate multiple videos into a single input and perform direct inference, which introduces training-inference mismatch, information loss from frame compression, and a lack of explicit cross-video coordination. Meanwhile, current multi-video benchmarks primarily emphasize event-level comparison, leaving identity-level matching, fine-grained discrimination, and structured multi-step reasoning underexplored. To address these gaps, we introduce MVX-Bench, a Multi-Video Cross-Dimension Benchmark that reformulates 11 classical computer vision tasks into a unified multi-video question-answering framework, comprising 1,442 questions over 4,255 videos from diverse real-world datasets. We further propose SAMA, a Skill-Augmented Agentic Framework for Multi-Video Understanding, which integrates visual tools, task-specific skills, and a conflict-aware verification mechanism to enable iterative and structured reasoning. Experimental results show that SAMA outperforms strong open-source baselines and GPT on MVX-Bench, and ablations validate the effectiveness of skill design and conflict resolution.

A Skill-augmented Agentic Framework and Benchmark for Multi-Video Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理