Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples
作者: Chun-Yi Kuan, Hung-yi Lee
分类: eess.AS, cs.CL, cs.SD
发布日期: 2025-05-20 (更新: 2025-07-01)
备注: Accepted to Interspeech 2025. Project Website: https://kuan2jiu99.github.io/Balsa
💡 一句话要点
提出LISTEN方法,通过合成负样本缓解音频大语言模型中的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频大语言模型 幻觉缓解 负样本学习 对比学习 音频理解
📋 核心要点
- 音频大语言模型易产生幻觉,即识别出实际不存在的声音事件,影响其可靠性。
- LISTEN方法通过合成负样本,训练模型区分存在和不存在的声音,无需修改LLM参数。
- 实验表明LISTEN有效缓解了幻觉,并在音频问答和推理任务上保持了良好性能,同时更高效。
📝 摘要(中文)
音频感知大语言模型(ALLMs)的最新进展使其能够处理和理解音频输入。然而,这些模型经常幻听不存在的声音事件,降低了它们在实际应用中的可靠性。为了解决这个问题,我们提出LISTEN(通过扩展负样本学习识别声音),这是一种对比式训练方法,它利用来自骨干LLM的合成数据,增强ALLMs区分存在和不存在声音的能力。与先前的方法不同,我们的方法不需要修改LLM参数,并通过轻量级适配器有效地集成音频表示。实验表明,LISTEN有效地缓解了幻觉,同时在现有的音频问答和推理基准上保持了令人印象深刻的性能。同时,它在数据和计算方面都更有效。
🔬 方法详解
问题定义:音频感知大语言模型(ALLMs)在理解音频内容方面取得了显著进展,但一个关键问题是模型容易产生幻觉,即错误地识别出实际不存在的声音事件。现有方法通常需要修改LLM的参数,或者数据效率和计算效率较低,限制了其在实际应用中的可行性。
核心思路:LISTEN的核心思路是利用对比学习的思想,通过引入合成的负样本来训练模型,使其能够更好地区分存在和不存在的声音。具体来说,模型学习区分真实的音频及其对应的文本描述,以及不存在的音频和错误的文本描述。这种方法旨在增强模型对音频输入的辨别能力,从而减少幻觉的产生。
技术框架:LISTEN方法主要包含以下几个模块:1) 音频编码器:将音频输入转换为音频表示。2) 轻量级适配器:将音频表示集成到LLM中,无需修改LLM的参数。3) 负样本生成器:利用LLM生成与音频不匹配的文本描述作为负样本。4) 对比学习损失函数:用于训练模型区分正样本(真实音频和文本描述)和负样本(音频和不匹配的文本描述)。整体流程是,首先将音频输入通过音频编码器和适配器输入到LLM中,然后利用LLM生成负样本,最后通过对比学习损失函数训练模型。
关键创新:LISTEN的关键创新在于利用LLM本身来生成负样本,从而避免了手动标注或使用外部数据集的需要。此外,LISTEN采用轻量级适配器,无需修改LLM的参数,使其能够更容易地应用于不同的LLM。这种方法在数据和计算效率方面都优于现有方法。
关键设计:LISTEN的关键设计包括:1) 负样本生成策略:利用LLM生成与音频内容不相关的文本描述,例如,将音频描述中的关键词替换为其他词语。2) 对比学习损失函数:采用InfoNCE损失函数,鼓励模型将正样本的相似度最大化,将负样本的相似度最小化。3) 轻量级适配器:使用简单的线性层或MLP将音频表示映射到LLM的输入空间。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LISTEN方法在缓解音频大语言模型的幻觉方面取得了显著效果,同时在现有的音频问答和推理基准上保持了良好的性能。与现有方法相比,LISTEN在数据和计算效率方面都更具优势。具体性能数据未知,但摘要强调了其有效性和效率。
🎯 应用场景
该研究成果可应用于各种需要可靠音频理解的场景,例如智能助手、语音搜索、自动驾驶、安全监控等。通过减少音频大语言模型的幻觉,可以提高这些应用在实际环境中的可靠性和安全性,例如在自动驾驶中准确识别周围环境的声音,避免错误判断导致的安全事故。
📄 摘要(原文)
Recent advancements in audio-aware large language models (ALLMs) enable them to process and understand audio inputs. However, these models often hallucinate non-existent sound events, reducing their reliability in real-world applications. To address this, we propose LISTEN (Learning to Identify Sounds Through Extended Negative Samples), a contrastive-like training method that enhances ALLMs' ability to distinguish between present and absent sounds using synthesized data from the backbone LLM. Unlike prior approaches, our method requires no modification to LLM parameters and efficiently integrates audio representations via a lightweight adapter. Experiments show that LISTEN effectively mitigates hallucinations while maintaining impressive performance on existing audio question and reasoning benchmarks. At the same time, it is more efficient in both data and computation.