Active Perception Agent for Omnimodal Audio-Video Understanding

📄 arXiv: 2512.23646v2 📥 PDF

作者: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang

分类: cs.CV

发布日期: 2025-12-29 (更新: 2026-02-05)

备注: Website:https://kd-tao.github.io/OmniAgent/


💡 一句话要点

提出OmniAgent,首个全主动感知Agent,用于细粒度音视频理解。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主动感知 音视频理解 多模态融合 动态规划 Agent

📋 核心要点

  1. 现有全模态模型在细粒度跨模态理解和多模态对齐方面存在不足。
  2. OmniAgent通过动态编排单模态工具,实现主动感知和细粒度推理。
  3. 实验表明,OmniAgent在音视频理解任务上显著超越现有模型,提升10%-20%。

📝 摘要(中文)

全模态大型语言模型在统一音频和视觉模态方面取得了显著进展,但它们在细粒度的跨模态理解和多模态对齐方面仍然面临挑战。为了解决这些限制,我们提出了OmniAgent,据我们所知,这是第一个完全主动的感知Agent,它动态地编排专门的单模态工具,以实现更细粒度的全模态推理。与依赖于刚性、静态工作流程和密集帧字幕的先前工作不同,我们展示了一种从被动响应生成到主动多模态查询的范式转变。OmniAgent采用动态规划来按需自主地编排工具调用,策略性地将感知注意力集中在与任务相关的线索上。我们方法的核心是一种新颖的由粗到精的音频引导感知范式,它利用音频线索来定位时间事件并指导后续推理。在三个音视频理解基准上的广泛实证评估表明,OmniAgent实现了最先进的性能,在没有训练的情况下,超过了领先的开源和闭源模型10%-20%的准确率。

🔬 方法详解

问题定义:现有全模态音视频理解模型通常采用静态的工作流程和密集的帧字幕方式,难以进行细粒度的跨模态理解,并且在多模态对齐方面存在困难。这些模型往往是被动地生成响应,无法主动地探索和利用音视频信息中的关键线索。

核心思路:OmniAgent的核心思路是将音视频理解任务转化为一个主动感知和动态推理的过程。通过引入一个Agent,该Agent可以根据任务需求,自主地选择和调用不同的单模态工具,从而实现更细粒度的信息提取和更准确的跨模态对齐。这种主动感知的方式使得模型能够更加高效地利用音视频信息,并专注于与任务相关的线索。

技术框架:OmniAgent的整体架构包含以下几个主要模块:1) 动态规划器:负责根据任务目标,生成一个工具调用序列。2) 单模态工具集:包含各种专门的单模态工具,例如音频事件检测器、视频目标检测器等。3) 音频引导感知模块:利用音频线索来定位时间事件,并指导后续的推理过程。4) 全模态推理模块:负责将从不同模态提取的信息进行融合,并生成最终的输出。

关键创新:OmniAgent最重要的技术创新点在于其主动感知的范式。与传统的被动响应生成模型不同,OmniAgent可以根据任务需求,自主地选择和调用不同的工具,从而实现更高效和更准确的信息提取。此外,音频引导感知模块也是一个重要的创新点,它利用音频信息来指导视频信息的处理,从而提高了模型的性能。

关键设计:OmniAgent的关键设计包括:1) 动态规划器的设计,需要考虑如何有效地生成工具调用序列。2) 单模态工具的选择和训练,需要保证工具的性能和多样性。3) 音频引导感知模块的设计,需要考虑如何有效地利用音频信息来指导视频信息的处理。4) 全模态推理模块的设计,需要考虑如何有效地融合来自不同模态的信息。

🖼️ 关键图片

img_0

📊 实验亮点

OmniAgent在三个音视频理解基准测试中取得了最先进的性能,在没有经过训练的情况下,超过了领先的开源和闭源模型10%-20%的准确率。这表明OmniAgent具有很强的泛化能力和实用价值。实验结果充分证明了主动感知范式的有效性。

🎯 应用场景

OmniAgent具有广泛的应用前景,例如智能视频监控、智能家居、人机交互等领域。它可以用于自动分析视频内容,识别异常事件,并提供智能化的服务。此外,OmniAgent还可以应用于教育领域,例如自动生成教学视频的字幕和摘要。

📄 摘要(原文)

Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often face challenges in fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, to our best knowledge, the first fully active perception agent that dynamically orchestrates specialized unimodal tools to achieve more fine-grained omnimodal reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, we demonstrate a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and closed-source models by substantial margins of 10% - 20% accuracy without training.