LongVideoAgent: Multi-Agent Reasoning with Long Videos

作者: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen

分类: cs.AI, cs.CV, cs.LG, cs.MA

发布日期: 2025-12-23

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

LongVideoAgent：提出一种基于多智能体推理的长视频问答框架，提升时序定位和细节捕捉能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频问答 多智能体系统 强化学习 时序定位 视觉信息提取

📋 核心要点

现有长视频问答方法依赖有损压缩或有限的工具集，削弱了时序定位能力，并可能遗漏细粒度的线索。
提出一种多智能体框架，利用 grounding agent 定位相关片段，vision agent 提取视觉细节，主 LLM 协调推理。
在 LongTVQA 和 LongTVQA+ 数据集上，该方法显著优于非智能体基线，且强化学习能进一步提升推理和规划能力。

📝 摘要（中文）

本文提出了一种多智能体框架，用于处理长视频问答任务。该框架由一个主LLM协调，一个负责定位问题相关片段的 grounding agent 和一个提取目标文本观测的 vision agent。主智能体在步数限制下进行规划，并通过强化学习进行训练，以鼓励简洁、正确和高效的多智能体协作。这种设计通过 grounding 帮助主智能体专注于相关片段，利用视觉细节补充字幕信息，并产生可解释的推理轨迹。在从 TVQA/TVQA+ 聚合而来的 episode-level 数据集 LongTVQA 和 LongTVQA+ 上，我们的多智能体系统显著优于强大的非智能体基线。实验还表明，强化学习进一步加强了训练后智能体的推理和规划能力。代码和数据将在 https://longvideoagent.github.io/ 上共享。

🔬 方法详解

问题定义：长视频问答任务需要模型具备在长时间跨度内进行推理的能力。现有方法通常采用有损的视频摘要或依赖有限的工具集，导致时序定位精度下降，无法捕捉视频中的细粒度信息，从而影响问答效果。

核心思路：论文的核心思路是将长视频问答任务分解为多个智能体协作完成。通过引入 grounding agent 和 vision agent，分别负责定位相关视频片段和提取视觉信息，从而减轻主 LLM 的负担，使其能够更专注于推理和规划。这种分工协作的方式能够更有效地利用视频信息，提高问答的准确性。

技术框架：LongVideoAgent 框架包含三个主要模块：主 LLM、grounding agent 和 vision agent。主 LLM 负责接收问题，协调其他智能体的工作，并最终生成答案。grounding agent 负责根据问题定位视频中相关的片段。vision agent 负责从定位到的视频片段中提取视觉信息，例如场景描述、物体识别等。整个流程如下：主 LLM 接收问题 -> 主 LLM 调用 grounding agent 定位相关片段 -> 主 LLM 调用 vision agent 提取视觉信息 -> 主 LLM 结合问题、定位片段和视觉信息进行推理 -> 主 LLM 生成答案。

关键创新：该方法最重要的创新点在于提出了一个多智能体协作的框架，将长视频问答任务分解为多个子任务，并由不同的智能体负责完成。这种分工协作的方式能够更有效地利用视频信息，提高问答的准确性。与现有方法相比，该方法不需要对视频进行有损压缩，能够保留更多的细节信息。此外，通过强化学习训练主 LLM，能够进一步提高其推理和规划能力。

关键设计：主 LLM 使用预训练的 LLM，并进行微调以适应长视频问答任务。Grounding agent 和 vision agent 可以使用现有的目标检测、视频分割等模型。强化学习的目标是鼓励主 LLM 进行简洁、正确和高效的多智能体协作。奖励函数可以设计为基于答案的准确性、使用的步数等因素。步数限制是为了防止主 LLM 无限循环调用其他智能体。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在 LongTVQA 和 LongTVQA+ 数据集上，LongVideoAgent 显著优于非智能体基线。具体而言，LongVideoAgent 在 LongTVQA 数据集上取得了 X% 的提升，在 LongTVQA+ 数据集上取得了 Y% 的提升（具体数值未知）。此外，实验还表明，通过强化学习训练主 LLM，能够进一步提高其推理和规划能力。

🎯 应用场景

该研究成果可应用于智能客服、视频内容理解、智能安防等领域。例如，在智能客服中，可以利用该方法对用户上传的视频进行分析，快速定位问题并给出解答。在视频内容理解中，可以用于自动生成视频摘要、视频标签等。在智能安防中，可以用于监控视频分析，自动识别异常行为。

📄 摘要（原文）

Recent advances in multimodal LLMs and systems that use tools for long-video QA point to the promise of reasoning over hour-long episodes. However, many methods still compress content into lossy summaries or rely on limited toolsets, weakening temporal grounding and missing fine-grained cues. We propose a multi-agent framework in which a master LLM coordinates a grounding agent to localize question-relevant segments and a vision agent to extract targeted textual observations. The master agent plans with a step limit, and is trained with reinforcement learning to encourage concise, correct, and efficient multi-agent cooperation. This design helps the master agent focus on relevant clips via grounding, complements subtitles with visual detail, and yields interpretable trajectories. On our proposed LongTVQA and LongTVQA+ which are episode-level datasets aggregated from TVQA/TVQA+, our multi-agent system significantly outperforms strong non-agent baselines. Experiments also show reinforcement learning further strengthens reasoning and planning for the trained agent. Code and data will be shared at https://longvideoagent.github.io/.

LongVideoAgent: Multi-Agent Reasoning with Long Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册