Audio-Maestro: Enhancing Large Audio-Language Models with Tool-Augmented Reasoning

📄 arXiv: 2510.11454v1 📥 PDF

作者: Kuan-Yi Lee, Tsung-En Lin, Hung-Yi Lee

分类: cs.SD, cs.AI

发布日期: 2025-10-13

备注: 9pages


💡 一句话要点

Audio-Maestro:工具增强推理提升大型音频语言模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频语言模型 工具增强 音频推理 多模态学习 外部知识 可解释性 信号处理

📋 核心要点

  1. 现有大型音频语言模型依赖端到端推理,缺乏可解释性,难以处理复杂音频分析任务。
  2. Audio-Maestro框架通过允许模型调用外部工具并整合其输出来增强音频推理能力。
  3. 实验表明,Audio-Maestro在多个模型上均能显著提升音频推理准确率,验证了其有效性。

📝 摘要(中文)

本文提出Audio-Maestro,一个工具增强的音频推理框架,旨在提升大型音频语言模型(LMMs)的性能。现有系统主要依赖端到端推理,对于需要结构化知识或专业信号分析的任务,其可解释性和准确性受到限制。Audio-Maestro允许音频语言模型自主调用外部工具,并将带有时间戳的输出集成到推理过程中。这种设计使得模型能够通过专业工具分析、转换和解释音频信号,而非仅仅依赖端到端推断。实验结果表明,Audio-Maestro能够持续提升通用音频推理性能:Gemini-2.5-flash在MMAU-Test上的平均准确率从67.4%提升至72.1%,DeSTA-2.5从58.3%提升至62.8%,GPT-4o从60.8%提升至63.9%。据我们所知,Audio-Maestro是首个将结构化工具输出集成到大型音频语言模型推理过程中的框架。

🔬 方法详解

问题定义:现有的大型音频语言模型在处理需要精细音频分析的任务时,由于依赖端到端推理,缺乏利用专业工具的能力,导致性能受限,可解释性不足。例如,识别音频中的特定事件或进行详细的音频信号分析,现有方法难以有效利用外部知识和工具。

核心思路:Audio-Maestro的核心思路是赋予大型音频语言模型调用外部工具的能力,使其能够像人类专家一样,利用专业工具来辅助音频分析和推理。通过将工具的结构化输出集成到推理过程中,模型可以更准确、更可解释地完成任务。

技术框架:Audio-Maestro框架包含以下主要模块:1) 音频语言模型:作为核心推理引擎,负责接收音频输入和任务指令。2) 工具选择模块:根据任务需求,选择合适的外部工具。3) 工具执行模块:执行选定的工具,并获取带有时间戳的结构化输出。4) 信息集成模块:将工具的输出集成到音频语言模型的推理过程中,辅助模型进行决策。整个流程是一个迭代的过程,模型可以根据需要多次调用不同的工具。

关键创新:Audio-Maestro最重要的创新在于将结构化的工具输出集成到大型音频语言模型的推理过程中。与传统的端到端方法相比,Audio-Maestro能够利用外部工具的专业知识,提高模型的准确性和可解释性。此外,该框架的通用性使其可以与不同的音频语言模型和工具集成。

关键设计:工具选择模块的设计至关重要,需要根据任务类型和音频特征选择合适的工具。信息集成模块需要有效地将工具的输出与音频语言模型的内部表示相结合,例如,可以使用注意力机制来突出工具输出中的关键信息。具体的参数设置和网络结构可能需要根据不同的音频语言模型和工具进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Audio-Maestro能够显著提升大型音频语言模型的性能。在MMAU-Test数据集上,Gemini-2.5-flash的平均准确率从67.4%提升至72.1%,DeSTA-2.5从58.3%提升至62.8%,GPT-4o从60.8%提升至63.9%。这些结果表明,Audio-Maestro能够有效地利用外部工具来增强音频推理能力,并且具有良好的泛化性。

🎯 应用场景

Audio-Maestro具有广泛的应用前景,例如音频事件检测、音乐信息检索、语音识别、环境声音分析等。该框架可以应用于智能家居、安防监控、自动驾驶等领域,提升系统的智能化水平。未来,Audio-Maestro还可以扩展到其他模态,例如视频和文本,实现更强大的多模态推理能力。

📄 摘要(原文)

Recent advancements in large multimodal models (LMMs) have shown strong capabilities in audio understanding. However, most systems rely solely on end-to-end reasoning, limiting interpretability and accuracy for tasks that require structured knowledge or specialized signal analysis. In this work, we present Audio-Maestro -- a tool-augmented audio reasoning framework that enables audio-language models to autonomously call external tools and integrate their timestamped outputs into the reasoning process. This design allows the model to analyze, transform, and interpret audio signals through specialized tools rather than relying solely on end-to-end inference. Experiments show that Audio-Maestro consistently improves general audio reasoning performance: Gemini-2.5-flash's average accuracy on MMAU-Test rises from 67.4% to 72.1%, DeSTA-2.5 from 58.3% to 62.8%, and GPT-4o from 60.8% to 63.9%. To our knowledge, Audio-Maestro is the first framework to integrate structured tool output into the large audio language model reasoning process.