Evaluating Hallucinations in Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions
作者: Hansol Park, Hoseong Ahn, Junwon Moon, Yejin Lee, Kyuhong Shim
分类: cs.SD, cs.AI, eess.AS
发布日期: 2025-09-19
💡 一句话要点
提出RePOPE-Spk基准,评估语音查询下多模态LLM的幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 语音识别 幻觉 基准测试 语音查询 鲁棒性
📋 核心要点
- 现有视觉-语言模型幻觉研究主要集中在图像-文本场景,忽略了语音查询的影响。
- 论文提出RePOPE-Spk基准,通过引入不同声学条件下的语音查询来评估多模态LLM的幻觉。
- 实验表明,语音查询会加剧多模态LLM的幻觉,尤其是在存在环境噪声的情况下。
📝 摘要(中文)
视觉-语言模型中的幻觉问题已通过图像-文本设置下的基准测试进行了广泛研究。然而,尽管语音驱动界面的作用日益重要,但语音查询对多模态幻觉的影响在很大程度上仍未被探索。本文研究了语音输入如何影响多模态大型语言模型中的幻觉。我们提出了RePOPE-Spk,它是RePOPE基准的音频增强扩展,其中查询以不同声学条件下的语音形式提供。使用RePOPE-Spk,我们系统地评估了专有模型和开源模型。实验结果表明,当查询以语音形式提供时,幻觉会加剧:在干净语音下,错误率增加3%,在环境噪声下,错误率增加高达20%。输入顺序和查询长度进一步影响了鲁棒性,而多样本提示和思维链推理等策略提供了部分但不足的缓解。这些发现突出了一个关键且未被充分探索的挑战,为构建可靠的语音界面系统开辟了新的方向。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型在接收语音查询时,尤其是在存在噪声的情况下,更容易产生幻觉的问题。现有方法主要关注图像-文本输入,忽略了语音输入带来的挑战,导致模型在实际语音交互场景中的可靠性降低。
核心思路:论文的核心思路是通过构建一个包含语音查询的基准测试集RePOPE-Spk,来系统地评估多模态LLM在不同声学条件下的幻觉表现。通过对比文本查询和语音查询的结果,以及不同噪声水平下的表现,揭示语音输入对幻觉的影响。
技术框架:整体框架包括:1) 构建RePOPE-Spk基准,该基准是RePOPE基准的扩展,增加了语音查询,并模拟了不同的声学条件(如环境噪声)。2) 使用RePOPE-Spk评估现有的多模态LLM,包括专有模型和开源模型。3) 分析实验结果,研究语音输入、噪声水平、输入顺序和查询长度等因素对幻觉的影响。4) 尝试使用多样本提示和思维链推理等策略来缓解幻觉。
关键创新:最重要的技术创新点在于构建了RePOPE-Spk基准,这是首个专门用于评估语音查询下多模态LLM幻觉的基准。与现有方法的本质区别在于,它关注了语音输入这一重要模态,并考虑了实际应用中常见的噪声环境。
关键设计:RePOPE-Spk基准的设计关键在于:1) 语音查询的生成,需要保证语音的质量和多样性。2) 声学条件的模拟,需要选择合适的噪声类型和强度,以模拟真实的语音交互环境。3) 评估指标的选择,需要能够准确地衡量模型的幻觉程度。论文中使用了错误率作为主要的评估指标,并分析了不同类型的错误。
📊 实验亮点
实验结果表明,与文本查询相比,语音查询会显著增加多模态LLM的幻觉。在干净语音条件下,错误率增加3%,而在环境噪声下,错误率增加高达20%。此外,输入顺序和查询长度也会影响模型的鲁棒性。多样本提示和思维链推理等策略虽然可以部分缓解幻觉,但效果有限。
🎯 应用场景
该研究成果可应用于开发更可靠的语音助手、智能家居设备和车载信息娱乐系统。通过降低语音查询下的幻觉,可以提升用户体验,并减少因错误信息导致的潜在风险。未来的研究可以进一步探索更有效的幻觉缓解策略,并将其应用于实际的语音交互系统中。
📄 摘要(原文)
Hallucinations in vision-language models have been extensively studied using benchmarks that probe reliability in image-text settings. In contrast, the effect of spoken queries on multimodal hallucinations remains largely unexplored, despite the growing role of voice-driven interfaces. In this work, we investigate how spoken input influences hallucinations in multimodal large language models. We present RePOPE-Spk, an audio-augmented extension of the RePOPE benchmark, where queries are provided as speech under diverse acoustic conditions. Using RePOPE-Spk, we systematically evaluate both proprietary and open-source models. Experimental results show that hallucinations escalate when queries are spoken rather than written: error rates increase by 3% under clean speech and by up to 20% with environmental noise. Input order and query length further affect robustness, while strategies such as many-shot prompting and chain-of-thought reasoning offer partial but insufficient mitigation. These findings highlight a critical and underexplored challenge, opening new directions for building reliable voice interface systems.