Evaluating Hallucinations in Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions

作者: Hansol Park, Hoseong Ahn, Junwon Moon, Yejin Lee, Kyuhong Shim

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-09-19

💡 一句话要点

提出RePOPE-Spk基准，评估语音查询下多模态LLM的幻觉问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 语音识别 幻觉 基准测试 语音查询 鲁棒性

📋 核心要点

现有视觉-语言模型幻觉研究主要集中在图像-文本场景，忽略了语音查询的影响。
论文提出RePOPE-Spk基准，通过引入不同声学条件下的语音查询来评估多模态LLM的幻觉。
实验表明，语音查询会加剧多模态LLM的幻觉，尤其是在存在环境噪声的情况下。

📝 摘要（中文）

视觉-语言模型中的幻觉问题已通过图像-文本设置下的基准测试进行了广泛研究。然而，尽管语音驱动界面的作用日益重要，但语音查询对多模态幻觉的影响在很大程度上仍未被探索。本文研究了语音输入如何影响多模态大型语言模型中的幻觉。我们提出了RePOPE-Spk，它是RePOPE基准的音频增强扩展，其中查询以不同声学条件下的语音形式提供。使用RePOPE-Spk，我们系统地评估了专有模型和开源模型。实验结果表明，当查询以语音形式提供时，幻觉会加剧：在干净语音下，错误率增加3%，在环境噪声下，错误率增加高达20%。输入顺序和查询长度进一步影响了鲁棒性，而多样本提示和思维链推理等策略提供了部分但不足的缓解。这些发现突出了一个关键且未被充分探索的挑战，为构建可靠的语音界面系统开辟了新的方向。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型在接收语音查询时，尤其是在存在噪声的情况下，更容易产生幻觉的问题。现有方法主要关注图像-文本输入，忽略了语音输入带来的挑战，导致模型在实际语音交互场景中的可靠性降低。

核心思路：论文的核心思路是通过构建一个包含语音查询的基准测试集RePOPE-Spk，来系统地评估多模态LLM在不同声学条件下的幻觉表现。通过对比文本查询和语音查询的结果，以及不同噪声水平下的表现，揭示语音输入对幻觉的影响。

技术框架：整体框架包括：1) 构建RePOPE-Spk基准，该基准是RePOPE基准的扩展，增加了语音查询，并模拟了不同的声学条件（如环境噪声）。2) 使用RePOPE-Spk评估现有的多模态LLM，包括专有模型和开源模型。3) 分析实验结果，研究语音输入、噪声水平、输入顺序和查询长度等因素对幻觉的影响。4) 尝试使用多样本提示和思维链推理等策略来缓解幻觉。

关键创新：最重要的技术创新点在于构建了RePOPE-Spk基准，这是首个专门用于评估语音查询下多模态LLM幻觉的基准。与现有方法的本质区别在于，它关注了语音输入这一重要模态，并考虑了实际应用中常见的噪声环境。

关键设计：RePOPE-Spk基准的设计关键在于：1) 语音查询的生成，需要保证语音的质量和多样性。2) 声学条件的模拟，需要选择合适的噪声类型和强度，以模拟真实的语音交互环境。3) 评估指标的选择，需要能够准确地衡量模型的幻觉程度。论文中使用了错误率作为主要的评估指标，并分析了不同类型的错误。

📊 实验亮点

实验结果表明，与文本查询相比，语音查询会显著增加多模态LLM的幻觉。在干净语音条件下，错误率增加3%，而在环境噪声下，错误率增加高达20%。此外，输入顺序和查询长度也会影响模型的鲁棒性。多样本提示和思维链推理等策略虽然可以部分缓解幻觉，但效果有限。

🎯 应用场景

该研究成果可应用于开发更可靠的语音助手、智能家居设备和车载信息娱乐系统。通过降低语音查询下的幻觉，可以提升用户体验，并减少因错误信息导致的潜在风险。未来的研究可以进一步探索更有效的幻觉缓解策略，并将其应用于实际的语音交互系统中。

📄 摘要（原文）

Hallucinations in vision-language models have been extensively studied using benchmarks that probe reliability in image-text settings. In contrast, the effect of spoken queries on multimodal hallucinations remains largely unexplored, despite the growing role of voice-driven interfaces. In this work, we investigate how spoken input influences hallucinations in multimodal large language models. We present RePOPE-Spk, an audio-augmented extension of the RePOPE benchmark, where queries are provided as speech under diverse acoustic conditions. Using RePOPE-Spk, we systematically evaluate both proprietary and open-source models. Experimental results show that hallucinations escalate when queries are spoken rather than written: error rates increase by 3% under clean speech and by up to 20% with environmental noise. Input order and query length further affect robustness, while strategies such as many-shot prompting and chain-of-thought reasoning offer partial but insufficient mitigation. These findings highlight a critical and underexplored challenge, opening new directions for building reliable voice interface systems.

Evaluating Hallucinations in Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册