AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding

作者: Sanjoy Chowdhury, Karren D. Yang, Xudong Liu, Fartash Faghri, Pavan Kumar Anasosalu Vasu, Oncel Tuzel, Dinesh Manocha, Chun-Liang Li, Raviteja Vemulapalli

分类: cs.AI, cs.MA

发布日期: 2025-12-18

💡 一句话要点

AMUSE：用于Agentic多说话人理解的视听基准和对齐框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 Agentic推理 多说话人理解 视听融合 基准测试 奖励学习 大型语言模型

📋 核心要点

现有MLLM在多说话人对话场景中，缺乏有效的agentic推理能力，难以跟踪说话人、理解角色和事件。
提出RAFT框架，通过奖励优化和多模态自评估，实现数据高效的agentic对齐，提升模型性能。
在AMUSE基准测试中，RAFT框架实现了高达39.52%的相对精度提升，验证了其有效性。

📝 摘要（中文）

本文提出了AMUSE，一个旨在评估多模态大型语言模型（MLLM）在多说话人、以对话为中心的场景下agentic推理能力的基准。现有MLLM如GPT-4o和Qwen3-Omni在感知方面表现出色，但在需要跟踪说话者、维护角色以及理解跨时间事件的此类场景中表现不佳。AMUSE围绕本质上是agentic的任务设计，要求模型将复杂的视听交互分解为规划、理解和反思步骤。它在零样本、引导和agentic三种模式以及六个任务族（包括时空说话人定位和多模态对话摘要）中评估MLLM。结果表明，当前模型在非agentic和agentic评估下都表现出较弱的多说话人推理和不一致的行为。受任务的agentic本质和LLM agent最新进展的启发，本文提出RAFT，一种数据高效的agentic对齐框架，它将奖励优化与内在多模态自我评估（作为奖励）和选择性参数适应相结合，以实现数据和参数高效的更新。使用RAFT，在基准测试中实现了高达39.52％的相对精度提升。AMUSE和RAFT共同为检查多模态模型中的agentic推理并提高其能力提供了一个实用的平台。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）在处理多说话人、以对话为中心的视听场景时，缺乏有效的agentic推理能力的问题。现有方法难以准确跟踪说话人身份、维护角色一致性，以及理解跨时间发生的事件，导致在会话视频助手和会议分析等应用中表现不佳。

核心思路：论文的核心思路是利用agentic框架来提升MLLM在多说话人视听场景中的推理能力。通过将复杂的视听交互分解为规划、理解和反思等步骤，并结合奖励优化和多模态自评估，使模型能够更好地理解和处理多说话人对话中的上下文信息。

技术框架：整体框架包含两个主要部分：AMUSE基准测试和RAFT对齐框架。AMUSE基准用于评估MLLM在不同agentic模式下的性能，包括零样本、引导和agentic模式。RAFT框架则用于提升MLLM的agentic推理能力，它通过将奖励优化与内在多模态自评估相结合，并采用选择性参数适应策略，实现数据和参数高效的更新。

关键创新：论文的关键创新在于提出了RAFT（Reward-Aware Fine-Tuning）框架，该框架将奖励优化与内在多模态自评估相结合，以提升MLLM的agentic推理能力。与传统的微调方法相比，RAFT能够更有效地利用数据，并根据模型的自身评估结果进行参数调整，从而实现更好的性能。

关键设计：RAFT框架的关键设计包括：1) 使用多模态自评估作为奖励信号，引导模型学习更有效的agentic策略；2) 采用选择性参数适应策略，只更新与agentic推理相关的参数，从而提高训练效率；3) 设计了AMUSE基准测试，用于全面评估MLLM在多说话人视听场景下的agentic推理能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用RAFT框架后，模型在AMUSE基准测试中实现了高达39.52%的相对精度提升。这一显著的性能提升验证了RAFT框架的有效性，表明其能够显著提高MLLM在多说话人视听场景下的agentic推理能力。此外，实验还表明，RAFT框架具有数据高效性，能够在少量数据上实现显著的性能提升。

🎯 应用场景

该研究成果可应用于会话视频助手、会议分析、智能客服等领域。通过提升模型在多说话人场景下的理解和推理能力，可以实现更自然、更智能的人机交互，提高工作效率和用户体验。未来，该技术有望在教育、医疗等领域发挥重要作用。

📄 摘要（原文）

Recent multimodal large language models (MLLMs) such as GPT-4o and Qwen3-Omni show strong perception but struggle in multi-speaker, dialogue-centric settings that demand agentic reasoning tracking who speaks, maintaining roles, and grounding events across time. These scenarios are central to multimodal audio-video understanding, where models must jointly reason over audio and visual streams in applications such as conversational video assistants and meeting analytics. We introduce AMUSE, a benchmark designed around tasks that are inherently agentic, requiring models to decompose complex audio-visual interactions into planning, grounding, and reflection steps. It evaluates MLLMs across three modes zero-shot, guided, and agentic and six task families, including spatio-temporal speaker grounding and multimodal dialogue summarization. Across all modes, current models exhibit weak multi-speaker reasoning and inconsistent behavior under both non-agentic and agentic evaluation. Motivated by the inherently agentic nature of these tasks and recent advances in LLM agents, we propose RAFT, a data-efficient agentic alignment framework that integrates reward optimization with intrinsic multimodal self-evaluation as reward and selective parameter adaptation for data and parameter efficient updates. Using RAFT, we achieve up to 39.52\% relative improvement in accuracy on our benchmark. Together, AMUSE and RAFT provide a practical platform for examining agentic reasoning in multimodal models and improving their capabilities.

AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册