Evaluating Hallucinations in Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions
作者: Hansol Park, Hoseong Ahn, Junwon Moon, Yejin Lee, Kyuhong Shim
分类: cs.SD, cs.AI, eess.AS
发布日期: 2025-09-19
💡 一句话要点
提出RePOPE-Spk基准,评估多模态LLM在语音查询下的幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 语音识别 幻觉 基准测试 鲁棒性 语音查询
📋 核心要点
- 现有视觉-语言模型幻觉研究主要集中在图像-文本场景,忽略了语音查询的影响。
- 论文提出RePOPE-Spk基准,通过引入不同声学条件下的语音查询来评估多模态LLM的幻觉。
- 实验表明,语音查询会加剧多模态LLM的幻觉,尤其是在存在环境噪声的情况下。
📝 摘要(中文)
视觉-语言模型中的幻觉问题已通过图像-文本设置下的基准测试进行了广泛研究。然而,语音查询对多模态幻觉的影响在很大程度上仍未被探索,尽管语音驱动界面的作用日益重要。本文研究了语音输入如何影响多模态大型语言模型中的幻觉。我们提出了RePOPE-Spk,它是RePOPE基准的音频增强扩展,其中查询以不同声学条件下的语音形式提供。使用RePOPE-Spk,我们系统地评估了专有模型和开源模型。实验结果表明,当查询以语音形式提供时,幻觉会加剧:在干净语音下,错误率增加3%,在环境噪声下,错误率增加高达20%。输入顺序和查询长度进一步影响了鲁棒性,而诸如多样本提示和思维链推理等策略提供了部分但不足够的缓解。这些发现突出了一个关键且未被充分探索的挑战,为构建可靠的语音界面系统开辟了新的方向。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)在接收语音查询时产生的幻觉问题。现有研究主要集中在图像-文本输入,忽略了语音输入带来的挑战,尤其是在真实场景中存在的各种噪声条件下,语音识别的错误会进一步加剧幻觉现象。
核心思路:核心思路是通过构建一个包含语音查询的基准测试集RePOPE-Spk,系统性地评估MLLM在不同声学条件下的幻觉表现。通过对比文本查询和语音查询的结果,量化语音输入对幻觉的影响,并分析不同因素(如噪声类型、查询长度、输入顺序)对模型鲁棒性的影响。
技术框架:RePOPE-Spk是RePOPE基准的扩展,主要增加了音频输入部分。整体流程如下:1)构建包含图像和对应问题的文本数据集;2)将文本问题转换为语音查询,并模拟不同的声学条件(例如,添加环境噪声);3)将图像和语音查询输入到MLLM中;4)评估模型生成的答案是否与图像内容一致,从而判断是否存在幻觉。
关键创新:关键创新在于首次系统性地研究了语音查询对多模态LLM幻觉的影响,并构建了一个专门用于评估该问题的基准测试集RePOPE-Spk。该基准考虑了多种声学条件,更贴近真实应用场景。
关键设计:RePOPE-Spk的关键设计包括:1)使用高质量的文本数据集作为基础,保证问题本身的准确性;2)采用专业的语音合成技术将文本转换为语音,并模拟不同的噪声环境;3)设计合理的评估指标,量化模型在不同条件下的幻觉程度;4)考察了多种缓解策略,如多样本提示和思维链推理,以探索提高模型鲁棒性的方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与文本查询相比,语音查询会显著增加多模态LLM的幻觉。在干净语音条件下,错误率增加3%,而在环境噪声下,错误率增加高达20%。此外,输入顺序和查询长度也会影响模型的鲁棒性。多样本提示和思维链推理等策略虽然可以部分缓解幻觉,但效果有限。
🎯 应用场景
该研究成果可应用于开发更可靠的语音助手、智能家居设备和车载信息娱乐系统。通过降低语音查询引起的幻觉,可以提高用户体验,增强用户对AI系统的信任度。未来的研究可以进一步探索更有效的缓解策略,并将其应用于实际产品中。
📄 摘要(原文)
Hallucinations in vision-language models have been extensively studied using benchmarks that probe reliability in image-text settings. In contrast, the effect of spoken queries on multimodal hallucinations remains largely unexplored, despite the growing role of voice-driven interfaces. In this work, we investigate how spoken input influences hallucinations in multimodal large language models. We present RePOPE-Spk, an audio-augmented extension of the RePOPE benchmark, where queries are provided as speech under diverse acoustic conditions. Using RePOPE-Spk, we systematically evaluate both proprietary and open-source models. Experimental results show that hallucinations escalate when queries are spoken rather than written: error rates increase by 3% under clean speech and by up to 20% with environmental noise. Input order and query length further affect robustness, while strategies such as many-shot prompting and chain-of-thought reasoning offer partial but insufficient mitigation. These findings highlight a critical and underexplored challenge, opening new directions for building reliable voice interface systems.