OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding
作者: Ruixiang Zhao, Jie Yang, Zijie Xin, Tianyi Wang, Fengyun Rao, Jing LYU, Xirong Li
分类: cs.CV
发布日期: 2026-05-18
备注: Project page: https://ruixiangzhao.github.io/OmniPro
💡 一句话要点
OmniPro:面向全主动流视频理解的综合性评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全主动流视频理解 多模态学习 评测基准 音频理解 主动响应
📋 核心要点
- 现有视频理解基准主要依赖视觉信息,缺乏对音频信息的充分利用,限制了模型对多模态信息的理解能力。
- OmniPro基准旨在通过引入包含语音和非语音音频信息的样本,并采用双模式评估协议,全面评估模型的全主动能力。
- 实验结果表明,音频信息能带来性能提升,但模型对音频的利用率差异大,且长期性能下降明显,非语音音频感知能力较弱。
📝 摘要(中文)
全主动流视频理解,即从连续的视听流中自主决定何时发言以及说什么,是全模态大型语言模型的一个新兴能力。现有的评测基准存在三个主要缺陷:主要依赖视觉信号,采用轮询或固定时间戳协议而非真正的积极主动评估,并且仅涵盖有限的任务范围,从而无法可靠地评估和区分全主动流模型。我们提出了OmniPro,这是第一个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个经过人工验证的样本,涵盖9个子任务和3个认知级别,覆盖6个基本的视频理解能力。值得注意的是,84%的样本需要音频信号(语音或非语音),并且每个样本都标有模态隔离标签,以实现细粒度的多模态分析。我们进一步引入了一种双模式评估协议:Probe模式通过在每个ground-truth触发器前后查询模型来评估内容理解,而Online模式通过要求模型自主决定何时在流输入中响应来评估完整的积极主动能力。对11个代表性模型的评估揭示了三个关键发现:(1)音频提供了持续的增益,但不同模型的利用率差异很大,(2)性能随时间显着下降,表明长期鲁棒性有限,以及(3)非语音音频感知仍然是最薄弱的维度。
🔬 方法详解
问题定义:现有全主动流视频理解评测基准主要依赖视觉信号,忽略了音频信号的重要性。此外,现有的评估方法通常采用轮询或固定时间戳协议,无法真实反映模型的主动响应能力。因此,需要一个更全面、更真实的评测基准来评估模型在多模态信息下的主动理解和响应能力。
核心思路:OmniPro的核心思路是构建一个包含丰富音频信息(语音和非语音)的视频数据集,并设计一种双模式评估协议,以全面评估模型的全模态感知、主动响应和多样化视频理解能力。通过模态隔离标签,可以进行细粒度的多模态分析。
技术框架:OmniPro基准包含2700个样本,涵盖9个子任务和3个认知级别,覆盖6个基本的视频理解能力。每个样本都标有模态隔离标签,用于区分视觉、语音和非语音音频信息。评估协议包括Probe模式和Online模式。Probe模式在ground-truth触发器前后查询模型,评估内容理解能力。Online模式要求模型自主决定何时响应,评估主动响应能力。
关键创新:OmniPro的关键创新在于:1) 首次提出了一个综合性的全主动流视频理解评测基准,涵盖了多模态感知、主动响应和多样化视频理解任务;2) 引入了包含语音和非语音音频信息的样本,并提供了模态隔离标签,方便进行细粒度的多模态分析;3) 设计了一种双模式评估协议,可以全面评估模型的内容理解能力和主动响应能力。
关键设计:OmniPro数据集的构建过程中,人工验证确保了样本质量。双模式评估协议的设计考虑了内容理解和主动响应两个方面。模态隔离标签的设计方便了对不同模态信息利用情况的分析。具体参数设置、损失函数和网络结构的选择取决于被评估的模型,OmniPro主要提供评估框架和数据。
🖼️ 关键图片
📊 实验亮点
对11个代表性模型的评估结果表明:音频信息能够带来性能提升,但不同模型对音频的利用率差异很大;模型性能随时间显著下降,表明长期鲁棒性有限;非语音音频感知仍然是最薄弱的维度。这些发现为未来的模型设计提供了重要的指导。
🎯 应用场景
OmniPro基准的提出,将促进全主动流视频理解技术的发展,可应用于智能客服、智能监控、人机交互等领域。例如,在智能客服中,模型可以根据用户的语音和视频信息,主动识别用户意图并提供帮助。在智能监控中,模型可以主动检测异常事件并发出警报。在人机交互中,模型可以根据用户的行为和语音,主动提供个性化的服务。
📄 摘要(原文)
Omni-proactive streaming video understanding, i.e., autonomously deciding when to speak and what to say from continuous audio-visual streams, is an emerging capability of omni-modal large language models. Existing benchmarks fall short in three key aspects: they rely primarily on visual signals, adopt polling or fixed-timestamp protocols instead of true proactive evaluation, and cover only a limited range of tasks, preventing reliable assessment and differentiation of omni-proactive streaming models. We present OmniPro, the first benchmark to jointly evaluate omni-modal perception, proactive responding, and diverse video understanding tasks. It comprises 2,700 human-verified samples spanning 9 sub-tasks and 3 cognitive levels, covering 6 basic video understanding capabilities. Notably, 84% of samples require audio signals (speech or non-speech), and each sample is annotated with modality-isolation labels to enable fine-grained multimodal analysis. We further introduce a dual-mode evaluation protocol: Probe mode assesses content understanding by querying the model before and after each ground-truth trigger, while Online mode evaluates full proactive ability by requiring models to autonomously decide when to respond in streaming input. Evaluating 11 representative models reveals three key findings: (1) audio provides consistent gains but with highly variable utilization across models, (2) performance degrades significantly over time, indicating limited long-horizon robustness, and (3) non-speech audio perception remains the weakest dimension.