SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

作者: Qiaolin Wang, Xilin Jiang, Linyang He, Junkai Wu, Nima Mesgarani

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2025-09-19

💡 一句话要点

提出SightSound-R1，通过跨模态蒸馏提升听觉语言模型在复杂声景中的推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨模态学习 视听问答 知识蒸馏 思维链 听觉语言模型 视觉语言模型 推理能力

📋 核心要点

现有听觉语言模型在复杂声景推理方面存在不足，缺乏大规模思维链音频数据是主要瓶颈。
SightSound-R1通过跨模态蒸馏，将视觉语言模型的推理能力迁移到听觉语言模型。
实验表明，该方法显著提升了听觉语言模型在视听问答任务中的推理性能，尤其是在未见过的场景中。

📝 摘要（中文）

大型听觉语言模型(LALM)在音频理解方面表现出色，但在复杂声景中的推理能力仍落后于大型视觉语言模型(LVLM)。与视觉领域相比，缺乏大规模的思维链音频数据来教导LALM逐步推理是一个瓶颈。为了规避这种数据和模态差距，我们提出了SightSound-R1，一个跨模态蒸馏框架，它将更强的LVLM教师的先进推理能力转移到较弱的LALM学生身上，使用相同的视听问答(AVQA)数据集。SightSound-R1包括三个核心步骤：(i)测试时缩放，从LVLM教师生成以音频为中心的思维链(CoT)；(ii)音频引导的验证，以过滤幻觉；(iii)一个蒸馏管道，包括监督微调(SFT)，然后是用于LALM学生的群体相对策略优化(GRPO)。结果表明，SightSound-R1提高了LALM在领域内AVQA测试集以及未见过的听觉场景和问题中的推理性能，优于预训练和仅标签蒸馏的基线。因此，我们得出结论，视觉推理可以有效地转移到音频模型，并可以通过丰富的视听数据进行扩展。

🔬 方法详解

问题定义：论文旨在解决听觉语言模型(LALM)在复杂声景中推理能力不足的问题。现有方法缺乏大规模的思维链(Chain-of-Thought, CoT)音频数据，难以训练LALM进行逐步推理，导致其推理能力落后于视觉语言模型(LVLM)。

核心思路：论文的核心思路是通过跨模态蒸馏，将更强大的LVLM的推理能力迁移到较弱的LALM。利用LVLM在视觉推理方面的优势，生成音频相关的思维链，并以此指导LALM的学习，从而弥补音频数据不足的缺陷。

技术框架：SightSound-R1框架包含三个主要步骤： 1. 测试时缩放(Test-time Scaling)：利用LVLM生成以音频为中心的思维链(CoT)。 2. 音频引导验证(Audio-grounded Validation)：过滤LVLM生成的CoT中的幻觉，确保生成内容的可靠性。 3. 蒸馏管道(Distillation Pipeline)：包括监督微调(SFT)和群体相对策略优化(GRPO)，用于训练LALM学生模型。

关键创新：该方法的核心创新在于利用视觉模态的推理能力来增强听觉模态的推理能力，通过跨模态蒸馏弥补了音频数据不足的缺陷。与传统的蒸馏方法不同，SightSound-R1特别关注生成音频相关的思维链，并使用音频信息来验证生成内容的真实性。

关键设计： * 测试时缩放：具体实现细节未知，可能涉及调整LVLM的生成策略，使其更关注音频输入。 * 音频引导验证：使用音频信息来评估LVLM生成的CoT的合理性，例如，检查生成的描述是否与音频内容一致。 * 监督微调(SFT)：使用生成的CoT数据对LALM进行微调，使其学习模仿LVLM的推理过程。 * 群体相对策略优化(GRPO)：使用强化学习方法进一步优化LALM，使其更好地完成推理任务。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

SightSound-R1在视听问答任务中显著提升了LALM的推理性能，不仅在领域内测试集上表现优异，而且在未见过的听觉场景和问题中也取得了显著提升，超越了预训练和仅标签蒸馏的基线模型。具体性能提升数据未知，但结论表明视觉推理可以有效迁移到音频模型。

🎯 应用场景

该研究成果可应用于智能安防、智能家居、自动驾驶等领域，提升设备对复杂声景的理解和推理能力。例如，在智能安防中，可以帮助系统更准确地识别异常声音并进行预警；在自动驾驶中，可以帮助车辆更好地理解周围环境的声音信息，提高行驶安全性。未来，该方法有望推广到其他跨模态学习任务中。

📄 摘要（原文）

While large audio-language models (LALMs) have demonstrated state-of-the-art audio understanding, their reasoning capability in complex soundscapes still falls behind large vision-language models (LVLMs). Compared to the visual domain, one bottleneck is the lack of large-scale chain-of-thought audio data to teach LALM stepwise reasoning. To circumvent this data and modality gap, we present SightSound-R1, a cross-modal distillation framework that transfers advanced reasoning from a stronger LVLM teacher to a weaker LALM student on the same audio-visual question answering (AVQA) dataset. SightSound-R1 consists of three core steps: (i) test-time scaling to generate audio-focused chains of thought (CoT) from an LVLM teacher, (ii) audio-grounded validation to filter hallucinations, and (iii) a distillation pipeline with supervised fine-tuning (SFT) followed by Group Relative Policy Optimization (GRPO) for the LALM student. Results show that SightSound-R1 improves LALM reasoning performance both in the in-domain AVQA test set as well as in unseen auditory scenes and questions, outperforming both pretrained and label-only distilled baselines. Thus, we conclude that vision reasoning can be effectively transferred to audio models and scaled with abundant audio-visual data.

SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理