Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering

📄 arXiv: 2509.12275v3 📥 PDF

作者: Jinghua Zhao, Hang Su, Lichun Fan, Zhenbo Luo, Hui Wang, Haoqin Sun, Yong Qin

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-09-14 (更新: 2025-09-18)

备注: 5 pages, 1 figure, 2 tables submitted to icassp, under prereview


💡 一句话要点

提出Omni-CLST框架,利用课程学习和选择性思维链提升音频问答性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频问答 多模态学习 课程学习 思维链 错误感知 音频理解 语言模型

📋 核心要点

  1. 现有音频问答方法依赖新建数据集,忽略了现有高质量数据的潜力。
  2. Omni-CLST采用错误感知课程学习和引导式思维链,有效利用现有数据。
  3. 实验表明,Omni-CLST在MMAU-mini和MMAR数据集上均取得了显著的性能提升。

📝 摘要(中文)

随着大型音频语言模型(LALMs)的快速发展,音频问答(AQA)已成为一项具有挑战性的任务,它需要细粒度的音频理解和复杂的推理。目前的方法主要依赖于通过字幕或推理轨迹构建新的数据集,而现有的高质量AQA数据仍未得到充分利用。为了解决这个问题,我们提出了Omni-CLST,一个具有引导选择性思维链的错误感知课程学习框架。该框架通过两个关键策略有效地利用现有的高质量数据集:一个通过难度组织样本的错误感知课程,以及一个专注于挑战性案例的引导式思维dropout机制。实验表明,Omni-CLST在MMAU-mini上实现了73.80%的准确率,并在MMAR上实现了64.30%的最新水平,证明了其在多模态音频语言理解方面的强大泛化能力。

🔬 方法详解

问题定义:音频问答(AQA)任务需要模型具备细粒度的音频理解和复杂的推理能力。现有方法主要通过构建新的数据集来训练模型,例如通过添加字幕或推理轨迹。然而,这种方法忽略了现有高质量AQA数据集的潜力,造成了数据资源的浪费。此外,直接使用所有数据进行训练,忽略了样本的难度差异,可能导致模型训练效率低下。

核心思路:Omni-CLST的核心思路是通过错误感知的课程学习,逐步引导模型学习。首先,根据样本的难度对数据进行排序,让模型从易到难地学习。其次,引入引导式思维链,让模型在推理过程中逐步生成答案,并根据推理过程中的错误进行调整。通过这种方式,模型可以更有效地利用现有高质量数据,并提高其推理能力。

技术框架:Omni-CLST框架主要包含两个关键模块:错误感知课程学习模块和引导式选择性思维链模块。错误感知课程学习模块负责根据样本的难度对数据进行排序,并逐步将数据输入模型进行训练。难度评估基于模型在验证集上的表现,错误率高的样本被认为更难。引导式选择性思维链模块则在推理过程中,通过dropout机制,有选择性地保留重要的推理步骤,从而提高模型的推理效率和准确性。

关键创新:Omni-CLST的关键创新在于其错误感知的课程学习策略和引导式选择性思维链机制。错误感知的课程学习能够有效地利用现有高质量数据,并提高模型的训练效率。引导式选择性思维链则能够提高模型的推理能力和准确性,尤其是在处理复杂问题时。与现有方法相比,Omni-CLST能够更好地利用现有数据,并取得更好的性能。

关键设计:在错误感知课程学习中,使用验证集上的错误率来评估样本难度。难度由低到高排序后,逐步引入训练。在引导式选择性思维链中,使用dropout机制来选择性地保留推理步骤。Dropout的概率根据推理步骤的重要性进行调整,重要的步骤dropout概率较低,不重要的步骤dropout概率较高。损失函数包括交叉熵损失和思维链一致性损失,用于优化模型的预测准确性和推理过程的合理性。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

Omni-CLST在MMAU-mini数据集上取得了73.80%的准确率,并在MMAR数据集上取得了64.30%的最新水平。相较于现有方法,Omni-CLST在两个数据集上均取得了显著的性能提升,证明了其在多模态音频语言理解方面的强大泛化能力和有效性。

🎯 应用场景

Omni-CLST框架可应用于各种音频问答场景,例如智能助手、语音搜索和多媒体内容理解。该研究有助于提升机器对音频内容的理解和推理能力,从而实现更智能、更自然的人机交互。未来,该技术可扩展到其他多模态任务,例如视频问答和图像问答。

📄 摘要(原文)

With the rapid progress of large audio-language models (LALMs), audio question answering (AQA) has emerged as a challenging task requiring both fine-grained audio understanding and complex reasoning. While current methods mainly rely on constructing new datasets via captioning or reasoning traces, existing high-quality AQA data remains underutilized. To address this, we propose Omni-CLST, an error-aware Curriculum Learning framework with guided Selective Chain-of-Thought. The framework efficiently leverages existing high-quality dataset through two key strategies: an error-aware curriculum that organizes samples by difficulty, and a guided thought dropout mechanism that focuses reasoning on challenging cases. Experiments show that Omni-CLST achieves 73.80% on MMAU-mini and a new state of the art of 64.30% on MMAR, demonstrating robust generalization in multimodal audio-language understanding.