A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
作者: Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal
分类: cs.CV
发布日期: 2025-12-18
🔗 代码/项目: GITHUB
💡 一句话要点
提出LongShOTBench长视频多模态推理与工具使用基准及LongShOTAgent智能体框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多模态推理 智能体工具 基准测试 开放式问答
📋 核心要点
- 现有基准在长时序和多模态丰富性上有所侧重,但很少兼顾两者,且评估指标多为单一分数,无法有效揭示模型失效模式。
- 论文提出LongShOTBench基准和LongShOTAgent智能体框架,旨在促进长视频多模态推理和工具使用的研究。
- 实验结果表明,现有最先进的多模态大语言模型在LongShOTBench上表现不佳,突显了长视频理解的挑战。
📝 摘要(中文)
本文提出LongShOTBench,一个用于长视频多模态理解的诊断基准,它包含开放式、意图驱动的问题,单轮和多轮对话,以及需要跨视频、音频和语音进行多模态推理和智能体工具使用的任务。每个项目都包含参考答案和分级标准,以实现可解释和可追溯的评估。LongShOTBench通过可扩展的、人工验证的流程生成,以确保覆盖率和可重复性。此外,本文还提出了LongShOTAgent,一个通过预处理、搜索和迭代细化来分析长视频的智能体系统。在LongShOTBench上,最先进的MLLM显示出很大的差距:Gemini-2.5-Flash达到52.95%,开源模型保持在30%以下,LongShOTAgent达到44.66%。这些结果突出了真实世界长视频理解的难度。LongShOTBench为评估和改进MLLM提供了一个实用、可重复的基础。
🔬 方法详解
问题定义:现有长视频理解基准要么侧重于时间跨度,要么侧重于多模态信息的丰富性,很少有基准能够同时兼顾两者。此外,现有的评估指标通常采用单一分数,无法有效诊断模型的具体失败模式。因此,需要一个更全面、更具诊断性的基准来评估模型在长视频多模态推理和工具使用方面的能力。
核心思路:论文的核心思路是构建一个包含开放式问题、多轮对话以及需要智能体工具使用的长视频基准,并采用可解释的分级评估标准,从而更全面地评估和诊断模型在长视频理解方面的能力。同时,设计一个智能体框架,通过预处理、搜索和迭代细化来分析长视频,以提高模型性能。
技术框架:LongShOTBench基准的构建流程包括:1) 数据收集和标注,确保覆盖视频、音频和语音等多模态信息;2) 设计开放式、意图驱动的问题,涵盖单轮和多轮对话;3) 引入智能体工具使用任务;4) 建立可解释的分级评估标准。LongShOTAgent智能体框架包含:1) 视频预处理模块,用于提取关键帧和音频特征;2) 搜索模块,用于在视频中定位相关信息;3) 迭代细化模块,用于逐步完善答案。
关键创新:LongShOTBench基准的关键创新在于其综合性、诊断性和可解释性。它不仅涵盖了长视频的多模态信息,还引入了开放式问题、多轮对话和智能体工具使用任务,并采用可解释的分级评估标准,从而更全面地评估和诊断模型在长视频理解方面的能力。LongShOTAgent的关键创新在于其迭代细化机制,能够逐步完善答案,提高模型性能。
关键设计:LongShOTBench基准中的问题设计需要考虑问题的意图和难度,并确保问题能够涵盖视频中的关键信息。评估标准的设计需要确保可解释性和可追溯性,以便分析模型的失败模式。LongShOTAgent智能体框架中的预处理模块需要选择合适的特征提取方法,搜索模块需要设计高效的搜索算法,迭代细化模块需要设计有效的细化策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在LongShOTBench基准上,最先进的MLLM模型Gemini-2.5-Flash的性能为52.95%,开源模型的性能低于30%,而LongShOTAgent的性能为44.66%。这些结果表明,现有模型在长视频多模态理解方面仍存在很大的提升空间,LongShOTBench可以作为一个有效的评估和改进平台。
🎯 应用场景
该研究成果可应用于视频内容理解、智能客服、视频搜索、智能监控等领域。通过提升模型在长视频多模态推理和工具使用方面的能力,可以实现更智能、更高效的视频分析和应用,例如自动生成视频摘要、回答用户关于视频内容的复杂问题、以及在视频中定位特定事件或对象。
📄 摘要(原文)
Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.