AgentCVR: Active Multi-Agent Cross-Video Reasoning via Script-Simulated Reinforcement Learning

📄 arXiv: 2605.29643v1 📥 PDF

作者: Yilun Qiu, Jiahe Wang, Cilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Chun Yuan

分类: cs.CV, cs.MA

发布日期: 2026-05-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出AgentCVR,通过脚本模拟强化学习解决跨视频推理中证据获取难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨视频推理 多智能体系统 强化学习 脚本模拟 多模态学习

📋 核心要点

  1. 现有MLLM在跨视频推理中,单次编码易丢失关键证据,导致性能瓶颈。
  2. AgentCVR构建多智能体框架,模拟主动证据获取,提升推理效率与准确性。
  3. 采用脚本模拟强化学习,降低训练成本,AgentCVR性能媲美SOTA闭源系统。

📝 摘要(中文)

跨视频推理(CVR)已成为多模态智能的关键前沿,它要求模型检索、对齐和聚合分布在多个视频中的证据。当前的多模态大型语言模型(MLLM)在CVR方面表现不佳,因为简单的单次策略将多个视频编码到共享的压缩上下文中,可能会掩盖稀有但关键的证据。本文提出了AgentCVR,一个多智能体框架,将CVR视为主动的证据获取任务。AgentCVR采用一个主智能体来迭代地协调专门的视觉和音频智能体,以进行有针对性的证据提取。为了确保高效的训练,我们引入了脚本模拟强化学习,它使用LLM生成的语义脚本和一个轻量级的基于文本的模拟器来优化智能体的策略,从而绕过了在线探索期间昂贵的多模态推理。在全面的CVR基准上的实验结果表明,AgentCVR优于单次基线,并且实现了与最先进的闭源系统相当的性能,尤其是在复杂的跨视频对齐和定位方面。代码已开源。

🔬 方法详解

问题定义:跨视频推理(CVR)任务需要模型从多个视频中检索、对齐和聚合证据。现有的多模态大语言模型(MLLM)通常采用单次编码策略,将多个视频压缩到共享的上下文中,这可能导致关键但稀有的证据被忽略,从而影响推理性能。现有方法的痛点在于难以有效且高效地从多个视频中提取和利用关键证据。

核心思路:AgentCVR的核心思路是将CVR任务建模为一个主动的证据获取过程。通过引入多个智能体,包括一个主智能体和多个专门的视觉和音频智能体,AgentCVR能够迭代地、有针对性地从视频中提取证据。主智能体负责协调和决策,视觉和音频智能体负责提取特定模态的信息。这种设计允许模型更有效地探索和利用视频中的信息,从而提高推理的准确性。

技术框架:AgentCVR的整体框架包含以下几个主要模块:1) 主智能体:负责制定证据获取策略,决定何时以及如何调用视觉和音频智能体。2) 视觉智能体:负责从视频帧中提取视觉特征。3) 音频智能体:负责从音频中提取音频特征。4) 脚本模拟强化学习模块:使用LLM生成的语义脚本和一个轻量级的基于文本的模拟器来训练智能体的策略。整个流程是主智能体根据当前状态选择动作,然后调用相应的视觉或音频智能体提取证据,最后主智能体根据提取的证据更新状态并重复该过程,直到完成推理。

关键创新:AgentCVR最重要的技术创新点在于引入了脚本模拟强化学习。传统的强化学习需要大量的真实环境交互,这在多模态任务中成本很高。脚本模拟强化学习使用LLM生成的语义脚本和一个轻量级的基于文本的模拟器来模拟环境,从而可以在低成本下训练智能体的策略。与现有方法的本质区别在于,AgentCVR采用主动的证据获取策略,而不是被动的单次编码,并且使用脚本模拟强化学习来降低训练成本。

关键设计:脚本模拟强化学习的关键设计包括:1) 使用LLM生成语义脚本,描述视频中的事件和关系。2) 构建一个轻量级的基于文本的模拟器,模拟智能体与环境的交互。3) 设计合适的奖励函数,鼓励智能体提取关键证据。4) 使用策略梯度算法优化智能体的策略。具体的参数设置和网络结构在论文中应该有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AgentCVR在跨视频推理基准测试中表现出色,显著优于单次编码的基线方法。尤其是在复杂的跨视频对齐和定位任务中,AgentCVR的性能与最先进的闭源系统相当。具体性能数据和提升幅度在论文中应该有详细描述(未知),但总体而言,实验结果证明了AgentCVR的有效性和优越性。

🎯 应用场景

AgentCVR具有广泛的应用前景,例如视频监控、智能安防、多媒体内容分析和智能客服等领域。通过主动地从多个视频中提取和整合信息,AgentCVR可以帮助人们更好地理解和利用视频数据,从而提高工作效率和决策质量。未来,AgentCVR可以进一步扩展到更多的模态和任务中,例如结合文本信息进行跨媒体推理。

📄 摘要(原文)

Cross-Video Reasoning (CVR) has emerged as a critical frontier in multimodal intelligence, requiring models to retrieve, align, and aggregate evidence distributed across multiple videos. Current Multimodal Large Language Models (MLLMs) often struggle with CVR, as simple single-pass strategies encode multiple videos into a shared compressed context, potentially obscuring rare but critical evidence. In this paper, we propose AgentCVR, a multi-agent framework that treats CVR as an active evidence-acquisition task. AgentCVR employs a Master Agent to iteratively coordinate specialized Visual and Audio Agents for targeted evidence extraction. To ensure efficient training, we introduce Script-Simulated RL, which optimizes the agent's policy with LLM-generated semantic scripts and a lightweight text-based simulator, bypassing costly multimodal inference during online exploration. Experimental results on a comprehensive CVR benchmark show that AgentCVR outperforms single-pass baselines and achieves comparable performance to state-of-the-art closed-source systems, particularly in complex cross-video alignment and localization. To ensure reproducibility, our code is available at https://github.com/wang-jh24/AgentCVR.