LongVideoAgent: Multi-Agent Reasoning with Long Videos

📄 arXiv: 2512.20618v1 📥 PDF

作者: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen

分类: cs.AI, cs.CV, cs.LG, cs.MA

发布日期: 2025-12-23

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出LongVideoAgent,利用多智能体推理解决长视频问答中时序定位和细节捕捉难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多智能体系统 强化学习 视频问答 时序定位 视觉信息提取 LLM 多模态推理

📋 核心要点

  1. 现有长视频问答方法依赖有损压缩或有限工具集,削弱了时序定位能力,并忽略了细粒度线索。
  2. LongVideoAgent采用多智能体框架,通过定位智能体和视觉智能体协同,提升长视频理解和推理能力。
  3. 在LongTVQA和LongTVQA+数据集上,该方法显著优于非智能体基线,并利用强化学习进一步提升性能。

📝 摘要(中文)

本文提出了一种多智能体框架,用于解决长视频问答问题。该框架由一个主LLM协调,一个定位智能体负责定位与问题相关的视频片段,以及一个视觉智能体负责提取目标文本观察。主智能体在步数限制下进行规划,并通过强化学习进行训练,以鼓励简洁、正确和高效的多智能体协作。这种设计有助于主智能体通过定位关注相关片段,利用视觉细节补充字幕信息,并产生可解释的推理轨迹。在从TVQA/TVQA+聚合而来的长视频数据集LongTVQA和LongTVQA+上,该多智能体系统显著优于强大的非智能体基线。实验还表明,强化学习进一步加强了训练后智能体的推理和规划能力。代码和数据将在https://longvideoagent.github.io/上分享。

🔬 方法详解

问题定义:长视频问答任务面临的挑战在于如何有效地从冗长的视频内容中提取与问题相关的关键信息,并进行准确的推理。现有方法通常采用有损的视频摘要或依赖有限的工具集,导致时序定位精度下降,并且难以捕捉视频中的细粒度视觉信息。这些问题限制了模型在复杂场景下的推理能力。

核心思路:LongVideoAgent的核心思路是利用多智能体协作,将复杂的长视频问答任务分解为更易于管理的子任务。通过一个主LLM协调不同的智能体,每个智能体负责特定的功能,例如时序定位和视觉信息提取。这种分工合作的方式可以更有效地利用视频信息,并提高推理的准确性和效率。

技术框架:LongVideoAgent框架包含三个主要组成部分:主LLM(Master Agent)、定位智能体(Grounding Agent)和视觉智能体(Vision Agent)。主LLM负责接收问题,并根据问题规划推理步骤。定位智能体负责在视频中定位与问题相关的片段。视觉智能体负责从定位的片段中提取视觉信息,例如字幕和关键帧。主LLM根据定位智能体和视觉智能体提供的反馈,逐步推理并最终生成答案。

关键创新:LongVideoAgent的关键创新在于其多智能体协作框架,该框架能够有效地利用长视频中的时序信息和视觉信息。通过将任务分解为多个子任务,并由不同的智能体负责,该框架可以更有效地利用计算资源,并提高推理的准确性和效率。此外,使用强化学习训练主智能体,使其能够更好地规划推理步骤,并优化智能体之间的协作。

关键设计:在训练过程中,使用强化学习来优化主智能体的策略,目标是鼓励智能体之间简洁、正确和高效的协作。具体而言,设计了奖励函数,以鼓励主智能体选择正确的动作,并避免不必要的步骤。此外,还使用了步数限制来防止主智能体陷入无限循环。定位智能体和视觉智能体可以使用预训练的模型,例如目标检测模型和OCR模型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

LongVideoAgent在LongTVQA和LongTVQA+数据集上取得了显著的性能提升,大幅超越了非智能体基线模型。实验结果表明,多智能体协作框架能够有效地利用长视频中的时序信息和视觉信息,并且强化学习能够进一步提升模型的推理和规划能力。具体提升幅度在论文中给出。

🎯 应用场景

LongVideoAgent具有广泛的应用前景,例如智能客服、视频内容分析、教育视频理解等。该方法可以帮助用户快速找到视频中的关键信息,并进行深入的理解和分析。未来,该方法可以进一步扩展到其他类型的长序列数据,例如文本和音频。

📄 摘要(原文)

Recent advances in multimodal LLMs and systems that use tools for long-video QA point to the promise of reasoning over hour-long episodes. However, many methods still compress content into lossy summaries or rely on limited toolsets, weakening temporal grounding and missing fine-grained cues. We propose a multi-agent framework in which a master LLM coordinates a grounding agent to localize question-relevant segments and a vision agent to extract targeted textual observations. The master agent plans with a step limit, and is trained with reinforcement learning to encourage concise, correct, and efficient multi-agent cooperation. This design helps the master agent focus on relevant clips via grounding, complements subtitles with visual detail, and yields interpretable trajectories. On our proposed LongTVQA and LongTVQA+ which are episode-level datasets aggregated from TVQA/TVQA+, our multi-agent system significantly outperforms strong non-agent baselines. Experiments also show reinforcement learning further strengthens reasoning and planning for the trained agent. Code and data will be shared at https://longvideoagent.github.io/.