ALARM: Audio-Language Alignment for Reasoning Models

作者: Petr Grinberg, Hassan Shahmohammadi

分类: cs.CL

发布日期: 2026-03-10

备注: Submitted to Interspeech2026

💡 一句话要点

ALARM：通过音频-语言对齐增强推理模型的音频理解能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频语言模型 推理模型 自复述 多模态学习 音频理解

📋 核心要点

现有音频语言模型在推理时，直接使用文本替代输入，导致推理链不自然，影响性能。
提出自复述方法，将模型自生成的文本响应转换为音频理解变体，保持分布对齐，适配推理模型。
构建包含1.9万小时音频的多任务语料库，训练的40亿参数模型在音频推理基准上超越同规模及更大模型。

📝 摘要（中文）

大型音频语言模型（ALMs）通过增加音频理解能力来扩展大型语言模型（LLMs）。一种常见的方法是冻结LLM，仅在自生成的目标上训练适配器。然而，对于推理LLM（RLM）来说，这种方法会失败，因为其内置的思维链跟踪暴露了文本替代输入，从而产生不自然的回应。我们提出了自复述（self-rephrasing）方法，将自生成的响应转换为与RLM兼容的音频理解变体，同时保持分布对齐。此外，我们融合和压缩多个音频编码器以获得更强的表示。为了训练，我们构建了一个包含600万个实例的多任务语料库（250万个唯一提示），涵盖1.9万小时的语音、音乐和声音。我们的40亿参数ALM优于类似大小的模型，并在相关的音频推理基准测试中超过了大多数更大的ALM，同时以较低的训练成本保留了文本能力。值得注意的是，我们在MMAU-speech和MMSU基准测试中取得了最佳的开源结果，并在所有模型中排名第三。

🔬 方法详解

问题定义：现有的音频语言模型（ALMs）在与推理大型语言模型（RLMs）结合时，存在一个关键问题：RLMs的思维链（chain-of-thought）推理过程依赖于文本输入，而ALMs通常使用文本替代品来表示音频信息。这导致RLMs产生不自然的响应，降低了整体性能。现有方法未能有效解决音频信息与文本推理之间的语义鸿沟。

核心思路：论文的核心思路是引入“自复述”（self-rephrasing）机制，将ALM自生成的文本响应转换为更适合RLM理解的音频理解变体。通过这种方式，模型可以在保持音频信息的同时，生成与RLM推理过程更兼容的文本表示，从而提高推理的自然性和准确性。

技术框架：整体框架包括以下几个主要模块：1) 音频编码器：用于提取音频特征。论文融合和压缩了多个音频编码器，以获得更强大的音频表示。2) 自复述模块：将ALM的初始文本响应转换为音频理解变体。3) 推理LLM（RLM）：使用自复述后的文本表示进行推理。4) 多任务训练：使用包含语音、音乐和声音的大规模多任务语料库进行训练。

关键创新：论文的关键创新在于自复述机制。与直接使用文本替代品不同，自复述方法能够生成更符合音频语义的文本表示，从而更好地桥接音频信息与文本推理之间的鸿沟。此外，融合和压缩多个音频编码器也是一个创新点，可以提高音频特征的表达能力。

关键设计：论文构建了一个包含600万个实例的多任务语料库，涵盖1.9万小时的语音、音乐和声音。训练目标包括音频分类、语音识别、音乐理解等多个任务。在模型结构方面，论文使用了40亿参数的ALM，并采用了特定的损失函数来优化自复述过程，确保生成的文本表示与原始音频信息保持一致。

🖼️ 关键图片

📊 实验亮点

该论文提出的ALARM模型在MMAU-speech和MMSU基准测试中取得了最佳的开源结果，并在所有模型中排名第三，超越了许多更大规模的ALM模型。这表明该模型在音频推理方面具有显著的优势，并且能够以较低的训练成本实现高性能。

🎯 应用场景

该研究成果可应用于智能助手、语音搜索、音频内容分析等领域。例如，智能助手可以更好地理解用户的语音指令，并进行更准确的推理和响应。在音频内容分析方面，该模型可以用于自动识别音乐类型、检测环境声音等，具有广泛的应用前景。

📄 摘要（原文）

Large audio language models (ALMs) extend LLMs with auditory understanding. A common approach freezes the LLM and trains only an adapter on self-generated targets. However, this fails for reasoning LLMs (RLMs) whose built-in chain-of-thought traces expose the textual surrogate input, yielding unnatural responses. We propose self-rephrasing, converting self-generated responses into audio-understanding variants compatible with RLMs while preserving distributional alignment. We further fuse and compress multiple audio encoders for stronger representations. For training, we construct a 6M-instance multi-task corpus (2.5M unique prompts) spanning 19K hours of speech, music, and sound. Our 4B-parameter ALM outperforms similarly sized models and surpasses most larger ALMs on related audio-reasoning benchmarks, while preserving textual capabilities with a low training cost. Notably, we achieve the best open-source result on the MMAU-speech and MMSU benchmarks and rank third among all the models.

ALARM: Audio-Language Alignment for Reasoning Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理