MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models
作者: Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee
分类: cs.SD, cs.AI, cs.CL, eess.AS
发布日期: 2026-03-10
备注: 6 pages, 3 figures, 3 tables. Dataset: https://huggingface.co/Multi-Audio-Grounding
💡 一句话要点
MUGEN:评估并提升大语音语言模型的多语音理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语音理解 大型语音语言模型 音频置换自洽性 思维链 基准测试
📋 核心要点
- 现有大型语音语言模型在多语音理解方面存在不足,尤其是在处理多个并发音频输入时性能显著下降。
- 论文提出音频置换自洽性策略,通过改变音频输入的顺序,使模型学习到更鲁棒的聚合预测。
- 实验结果表明,该策略结合思维链方法,在多语音理解任务上取得了显著的性能提升,最高可达6.74%。
📝 摘要(中文)
多语音理解对于大型语音语言模型(LALM)至关重要,但目前尚未得到充分探索。我们提出了MUGEN,一个综合性的基准,用于评估LALM在语音、通用音频和音乐方面的多语音理解能力。实验表明,LALM在多语音场景中存在普遍的弱点,并且随着并发音频输入数量的增加,性能急剧下降,这表明输入缩放是一个根本瓶颈。我们进一步研究了免训练策略,并观察到音频置换自洽性(Audio-Permutational Self-Consistency)通过多样化音频候选的顺序,帮助模型形成更鲁棒的聚合预测,从而获得高达6.28%的准确率提升。将这种置换策略与思维链(Chain-of-Thought)相结合,可进一步将性能提高到6.74%。这些结果揭示了当前LALM的盲点,并为评估复杂的听觉理解能力奠定了基础。
🔬 方法详解
问题定义:论文旨在解决大型语音语言模型(LALM)在多语音理解方面的不足。现有的LALM在处理单个音频输入时表现良好,但在处理多个并发音频输入时,性能会显著下降。这表明模型在聚合和理解多个音频源信息方面存在困难,尤其是在输入规模增大时,性能瓶颈更加明显。
核心思路:论文的核心思路是通过引入音频置换自洽性(Audio-Permutational Self-Consistency)来提高模型对多语音输入的鲁棒性。该方法的核心思想是,通过改变输入音频的顺序,让模型学习到不同的音频组合方式,从而提高模型对音频顺序变化的适应能力,并形成更可靠的聚合预测。
技术框架:该研究主要采用了一种免训练的策略,即在推理阶段对模型的预测进行改进。具体来说,首先将多个音频输入送入LALM,然后通过音频置换自洽性策略,对音频输入的顺序进行随机置换,生成多个不同的输入序列。接着,模型对每个输入序列进行预测,最后将所有预测结果进行聚合,得到最终的预测结果。如果结合思维链(Chain-of-Thought),则在置换后,模型会生成一系列中间推理步骤,最终得出结论。
关键创新:论文的关键创新在于提出了音频置换自洽性策略,这是一种简单有效的提高LALM多语音理解能力的方法。与传统的训练方法不同,该方法无需额外的训练数据或模型参数,可以直接应用于现有的LALM。此外,该方法还可以与思维链等其他推理技术相结合,进一步提高模型的性能。
关键设计:音频置换自洽性的关键在于如何生成不同的音频输入序列。论文采用随机置换的方法,对音频输入的顺序进行随机打乱,生成多个不同的输入序列。置换的次数是一个重要的参数,需要根据具体的任务和数据集进行调整。此外,如何对多个预测结果进行聚合也是一个关键的设计问题。论文采用简单的平均或投票等方法进行聚合,也可以采用更复杂的聚合方法,例如加权平均或模型融合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,音频置换自洽性策略可以显著提高LALM在多语音理解任务上的性能。在MUGEN基准测试中,该策略获得了高达6.28%的准确率提升。结合思维链方法后,性能进一步提高到6.74%。这些结果表明,该策略是一种有效的提高LALM多语音理解能力的方法,并且可以与其他推理技术相结合,进一步提高模型的性能。
🎯 应用场景
该研究成果可应用于智能助手、语音搜索、自动驾驶等领域。例如,在智能助手中,可以利用该技术提高模型对用户同时发出的多个语音指令的理解能力。在自动驾驶中,可以提高模型对车辆周围多个声音信号(如警笛声、喇叭声等)的识别能力,从而提高驾驶安全性。未来,该技术有望推动语音语言模型在复杂听觉场景下的应用。
📄 摘要(原文)
While multi-audio understanding is critical for large audio-language models (LALMs), it remains underexplored. We introduce MUGEN, a comprehensive benchmark evaluating this capability across speech, general audio, and music. Our experiments reveal consistent weaknesses in multi-audio settings, and performance degrades sharply as the number of concurrent audio inputs increases, identifying input scaling as a fundamental bottleneck. We further investigate training-free strategies and observe that Audio-Permutational Self-Consistency, which diversifies the order of audio candidates, helps models form more robust aggregated predictions, yielding up to 6.28% accuracy gains. Combining this permutation strategy with Chain-of-Thought further improves performance to 6.74%. These results expose blind spots in current LALMs and provide a foundation for evaluating complex auditory comprehension.