LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs
作者: Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang
分类: cs.CV
发布日期: 2026-03-19
备注: Project page: https://kd-tao.github.io/LVOmniBench/
💡 一句话要点
LVOmniBench:首个面向全模态LLM的长音频视频理解评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多模态学习 大型语言模型 评测基准 跨模态理解
📋 核心要点
- 现有全模态LLM评估主要集中于短时音视频,无法满足实际应用中长时音视频理解的需求。
- LVOmniBench通过构建包含长时音视频和对应问答对的数据集,为长时音视频理解提供评测基准。
- 实验表明,现有OmniLLM在LVOmniBench上表现不佳,开源模型准确率低于35%,Gemini 3 Pro约为65%。
📝 摘要(中文)
全模态大型语言模型(OmniLLM)在理解音频和视频输入方面取得了显著进展。然而,目前的评估主要集中在10秒到5分钟的短音频和视频片段上,未能反映实际应用的需求,因为实际视频通常长达数十分钟。为了解决这一关键差距,我们推出了LVOmniBench,这是一个专门为长音频和视频的跨模态理解而设计的新基准。该数据集包含来自开放平台的高质量视频,这些视频具有丰富的视听动态。通过严格的手动选择和标注,LVOmniBench包含275个视频,时长从10分钟到90分钟不等,以及1014个问答(QA)对。LVOmniBench旨在严格评估OmniLLM在各个领域的能力,包括长期记忆、时间定位、细粒度理解和多模态感知。我们广泛的评估表明,当前的OmniLLM在处理扩展的视听输入时面临重大挑战。开源模型的准确率通常低于35%,而Gemini 3 Pro的峰值准确率约为65%。我们预计该数据集以及我们的经验发现将刺激进一步的研究和高级模型的开发,这些模型能够解决长音频视频上下文中复杂的跨模态理解问题。
🔬 方法详解
问题定义:现有全模态大型语言模型(OmniLLM)的评估主要集中在短时音视频片段,无法有效评估模型在实际应用场景下处理长时音视频内容的能力。现有方法缺乏针对长时音视频理解的专门评测基准,难以推动相关技术发展。
核心思路:LVOmniBench的核心思路是构建一个高质量、大规模的长时音视频数据集,并设计相应的评估指标,以全面评估OmniLLM在长时音视频理解方面的能力。通过提供具有挑战性的测试用例,促进模型在长期记忆、时间定位、细粒度理解和多模态感知等方面的提升。
技术框架:LVOmniBench数据集构建流程主要包括以下几个阶段:1) 数据收集:从开放平台收集包含丰富视听动态的长视频。2) 数据筛选:通过人工筛选,选择高质量的视频。3) 数据标注:对视频进行标注,生成问答对,涵盖长期记忆、时间定位、细粒度理解和多模态感知等方面。4) 数据集划分:将数据集划分为训练集、验证集和测试集。
关键创新:LVOmniBench的关键创新在于其专注于长时音视频理解的评测。与现有数据集相比,LVOmniBench包含更长的视频片段(10-90分钟),更复杂的视听内容,以及更具挑战性的问答对。这使得LVOmniBench能够更全面地评估OmniLLM在实际应用场景下的表现。
关键设计:LVOmniBench数据集包含275个视频,1014个问答对。视频时长从10分钟到90分钟不等。问答对涵盖长期记忆、时间定位、细粒度理解和多模态感知等方面。数据集的标注过程经过严格的人工审核,以保证标注质量。评估指标包括准确率等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有OmniLLM在LVOmniBench数据集上表现不佳,开源模型的准确率普遍低于35%,即使是性能较好的Gemini 3 Pro模型的准确率也仅为65%左右。这表明现有模型在处理长时音视频内容时仍面临巨大挑战,LVOmniBench的发布将有助于推动相关技术的发展。
🎯 应用场景
LVOmniBench可应用于视频内容分析、智能监控、教育视频理解、长篇电影/电视剧理解等领域。通过提升模型对长时音视频内容的理解能力,可以实现更智能的视频搜索、内容推荐、事件检测和行为分析,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.