ALARM: Audio-Language Alignment for Reasoning Models
作者: Petr Grinberg, Hassan Shahmohammadi
分类: cs.CL
发布日期: 2026-03-10
备注: Submitted to Interspeech2026
💡 一句话要点
ALARM:通过音频-语言对齐增强推理模型的音频理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频语言模型 推理模型 自复述 多模态学习 音频理解
📋 核心要点
- 现有音频语言模型在推理时,直接使用文本替代输入,导致推理链不自然,影响性能。
- 提出自复述方法,将模型自生成的文本响应转换为音频理解变体,保持分布对齐,适配推理模型。
- 构建包含1.9万小时音频的多任务语料库,训练的40亿参数模型在音频推理基准上超越同规模及更大模型。
📝 摘要(中文)
大型音频语言模型(ALMs)通过增加音频理解能力来扩展大型语言模型(LLMs)。一种常见的方法是冻结LLM,仅在自生成的目标上训练适配器。然而,对于推理LLM(RLM)来说,这种方法会失败,因为其内置的思维链跟踪暴露了文本替代输入,从而产生不自然的回应。我们提出了自复述(self-rephrasing)方法,将自生成的响应转换为与RLM兼容的音频理解变体,同时保持分布对齐。此外,我们融合和压缩多个音频编码器以获得更强的表示。为了训练,我们构建了一个包含600万个实例的多任务语料库(250万个唯一提示),涵盖1.9万小时的语音、音乐和声音。我们的40亿参数ALM优于类似大小的模型,并在相关的音频推理基准测试中超过了大多数更大的ALM,同时以较低的训练成本保留了文本能力。值得注意的是,我们在MMAU-speech和MMSU基准测试中取得了最佳的开源结果,并在所有模型中排名第三。
🔬 方法详解
问题定义:现有的音频语言模型(ALMs)在与推理大型语言模型(RLMs)结合时,存在一个关键问题:RLMs的思维链(chain-of-thought)推理过程依赖于文本输入,而ALMs通常使用文本替代品来表示音频信息。这导致RLMs产生不自然的响应,降低了整体性能。现有方法未能有效解决音频信息与文本推理之间的语义鸿沟。
核心思路:论文的核心思路是引入“自复述”(self-rephrasing)机制,将ALM自生成的文本响应转换为更适合RLM理解的音频理解变体。通过这种方式,模型可以在保持音频信息的同时,生成与RLM推理过程更兼容的文本表示,从而提高推理的自然性和准确性。
技术框架:整体框架包括以下几个主要模块:1) 音频编码器:用于提取音频特征。论文融合和压缩了多个音频编码器,以获得更强大的音频表示。2) 自复述模块:将ALM的初始文本响应转换为音频理解变体。3) 推理LLM(RLM):使用自复述后的文本表示进行推理。4) 多任务训练:使用包含语音、音乐和声音的大规模多任务语料库进行训练。
关键创新:论文的关键创新在于自复述机制。与直接使用文本替代品不同,自复述方法能够生成更符合音频语义的文本表示,从而更好地桥接音频信息与文本推理之间的鸿沟。此外,融合和压缩多个音频编码器也是一个创新点,可以提高音频特征的表达能力。
关键设计:论文构建了一个包含600万个实例的多任务语料库,涵盖1.9万小时的语音、音乐和声音。训练目标包括音频分类、语音识别、音乐理解等多个任务。在模型结构方面,论文使用了40亿参数的ALM,并采用了特定的损失函数来优化自复述过程,确保生成的文本表示与原始音频信息保持一致。
🖼️ 关键图片
📊 实验亮点
该论文提出的ALARM模型在MMAU-speech和MMSU基准测试中取得了最佳的开源结果,并在所有模型中排名第三,超越了许多更大规模的ALM模型。这表明该模型在音频推理方面具有显著的优势,并且能够以较低的训练成本实现高性能。
🎯 应用场景
该研究成果可应用于智能助手、语音搜索、音频内容分析等领域。例如,智能助手可以更好地理解用户的语音指令,并进行更准确的推理和响应。在音频内容分析方面,该模型可以用于自动识别音乐类型、检测环境声音等,具有广泛的应用前景。
📄 摘要(原文)
Large audio language models (ALMs) extend LLMs with auditory understanding. A common approach freezes the LLM and trains only an adapter on self-generated targets. However, this fails for reasoning LLMs (RLMs) whose built-in chain-of-thought traces expose the textual surrogate input, yielding unnatural responses. We propose self-rephrasing, converting self-generated responses into audio-understanding variants compatible with RLMs while preserving distributional alignment. We further fuse and compress multiple audio encoders for stronger representations. For training, we construct a 6M-instance multi-task corpus (2.5M unique prompts) spanning 19K hours of speech, music, and sound. Our 4B-parameter ALM outperforms similarly sized models and surpasses most larger ALMs on related audio-reasoning benchmarks, while preserving textual capabilities with a low training cost. Notably, we achieve the best open-source result on the MMAU-speech and MMSU benchmarks and rank third among all the models.