Mellow: a small audio language model for reasoning

作者: Soham Deshmukh, Satvik Dixit, Rita Singh, Bhiksha Raj

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-03-11

备注: Checkpoint and dataset available at: https://github.com/soham97/mellow

💡 一句话要点

提出Mellow：一种用于音频推理的小型音频语言模型，性能超越同规模模型。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频语言模型 多模态学习 音频推理 小型模型 合成数据

📋 核心要点

现有音频语言模型推理性能依赖于模型规模，小型模型推理能力不足，限制了其在边缘设备上的应用。
Mellow通过专门设计的网络结构和ReasonAQA数据集，提升了小型音频语言模型的音频推理能力。
实验表明，Mellow在推理任务上超越了同等规模的模型，甚至可以与更大的模型相媲美，同时显著减少了参数量和训练数据。

📝 摘要（中文）

本文介绍了一种名为Mellow的小型音频语言模型，专门为音频推理而设计。现有的多模态音频语言模型（ALM）通常需要超过80亿参数才能达到较好的推理性能，而Mellow旨在探索小型ALM在边缘设备上的推理能力。Mellow在现有小型ALM中实现了最先进的性能，并在推理能力上超越了一些较大的模型。例如，Mellow在MMAU上的得分为52.11，与SoTA Qwen2 Audio（得分52.5）相当，但参数量减少了50倍，训练数据（音频小时数）减少了60倍。为了训练Mellow，本文提出了ReasonAQA数据集，该数据集旨在增强模型中基于音频的推理能力，由现有数据集（30%）和合成生成的数据（70%）混合而成。合成数据集来源于音频字幕数据集，其中大型语言模型（LLM）生成详细的多项选择题，重点关注音频事件、对象、声学场景、信号属性、语义和听者情绪。为了评估Mellow的推理能力，本文在一组不同的任务上对其进行了基准测试，包括对分布内和分布外数据的评估，包括音频理解、演绎推理和比较推理。最后，本文进行了广泛的消融研究，以探索投影层选择、合成数据生成方法和语言模型预训练对推理性能的影响。本文的训练数据集、发现和基线为开发能够推理的小型ALM铺平了道路。

🔬 方法详解

问题定义：现有音频语言模型在进行复杂推理任务时，通常需要庞大的模型规模才能达到较好的性能。这使得它们难以部署在资源受限的边缘设备上。因此，如何提升小型音频语言模型的推理能力是一个关键问题。现有方法通常侧重于扩大模型规模或使用更复杂的训练策略，但忽略了针对小型模型进行专门优化的可能性。

核心思路：本文的核心思路是通过专门设计模型结构和训练数据，使小型音频语言模型能够有效地进行音频推理。具体来说，本文提出了一种名为Mellow的模型，并构建了一个名为ReasonAQA的合成数据集，用于增强模型的音频推理能力。这种设计旨在使模型能够更好地理解音频内容，并进行更准确的推理。

技术框架：Mellow的整体框架包含音频编码器、文本编码器和跨模态交互模块。音频编码器负责将音频信号转换为特征向量，文本编码器负责将文本问题转换为特征向量。跨模态交互模块负责将音频和文本特征进行融合，并生成答案。ReasonAQA数据集用于训练Mellow，该数据集包含音频字幕数据集和由大型语言模型生成的合成数据。

关键创新：本文最重要的技术创新点在于针对小型音频语言模型设计了专门的训练数据集ReasonAQA。该数据集包含大量的合成数据，这些数据由大型语言模型生成，旨在增强模型的音频推理能力。此外，本文还对Mellow的模型结构进行了优化，使其更适合于小型模型的推理任务。

关键设计：ReasonAQA数据集的关键设计在于使用大型语言模型生成合成数据。这些合成数据包含详细的多项选择题，重点关注音频事件、对象、声学场景、信号属性、语义和听者情绪。Mellow的关键设计在于优化了投影层选择和语言模型预训练策略，以提高推理性能。具体的参数设置和网络结构细节在论文中有详细描述，但此处未知。

🖼️ 关键图片

📊 实验亮点

Mellow在MMAU基准测试中取得了52.11的得分，与参数量大50倍、训练数据多60倍的Qwen2 Audio（得分52.5）性能相当。此外，消融实验验证了ReasonAQA数据集和模型结构优化对推理性能的有效性，证明了小型音频语言模型在推理任务上的潜力。

🎯 应用场景

该研究成果可应用于智能家居、可穿戴设备、车载系统等边缘设备，实现本地化的音频理解和推理，例如：根据环境声音识别异常事件并发出警报，根据用户语音指令控制智能设备，或在嘈杂环境中提取关键语音信息。这将极大地提升用户体验和设备智能化水平。

📄 摘要（原文）

Multimodal Audio-Language Models (ALMs) can understand and reason over both audio and text. Typically, reasoning performance correlates with model size, with the best results achieved by models exceeding 8 billion parameters. However, no prior work has explored enabling small audio-language models to perform reasoning tasks, despite the potential applications for edge devices. To address this gap, we introduce Mellow, a small Audio-Language Model specifically designed for reasoning. Mellow achieves state-of-the-art performance among existing small audio-language models and surpasses several larger models in reasoning capabilities. For instance, Mellow scores 52.11 on MMAU, comparable to SoTA Qwen2 Audio (which scores 52.5) while using 50 times fewer parameters and being trained on 60 times less data (audio hrs). To train Mellow, we introduce ReasonAQA, a dataset designed to enhance audio-grounded reasoning in models. It consists of a mixture of existing datasets (30% of the data) and synthetically generated data (70%). The synthetic dataset is derived from audio captioning datasets, where Large Language Models (LLMs) generate detailed and multiple-choice questions focusing on audio events, objects, acoustic scenes, signal properties, semantics, and listener emotions. To evaluate Mellow's reasoning ability, we benchmark it on a diverse set of tasks, assessing on both in-distribution and out-of-distribution data, including audio understanding, deductive reasoning, and comparative reasoning. Finally, we conduct extensive ablation studies to explore the impact of projection layer choices, synthetic data generation methods, and language model pretraining on reasoning performance. Our training dataset, findings, and baseline pave the way for developing small ALMs capable of reasoning.

Mellow: a small audio language model for reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理