Evaluating Hallucinations in Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions

作者: Hansol Park, Hoseong Ahn, Junwon Moon, Yejin Lee, Kyuhong Shim

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-09-19

💡 一句话要点

提出RePOPE-Spk基准，评估多模态LLM在语音查询下的幻觉问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 语音识别 幻觉 基准测试 鲁棒性 语音查询

📋 核心要点

现有视觉-语言模型幻觉研究主要集中在图像-文本场景，忽略了语音查询的影响。
论文提出RePOPE-Spk基准，通过引入不同声学条件下的语音查询来评估多模态LLM的幻觉。
实验表明，语音查询会加剧多模态LLM的幻觉，尤其是在存在环境噪声的情况下。

📝 摘要（中文）

视觉-语言模型中的幻觉问题已通过图像-文本设置下的基准测试进行了广泛研究。然而，语音查询对多模态幻觉的影响在很大程度上仍未被探索，尽管语音驱动界面的作用日益重要。本文研究了语音输入如何影响多模态大型语言模型中的幻觉。我们提出了RePOPE-Spk，它是RePOPE基准的音频增强扩展，其中查询以不同声学条件下的语音形式提供。使用RePOPE-Spk，我们系统地评估了专有模型和开源模型。实验结果表明，当查询以语音形式提供时，幻觉会加剧：在干净语音下，错误率增加3%，在环境噪声下，错误率增加高达20%。输入顺序和查询长度进一步影响了鲁棒性，而诸如多样本提示和思维链推理等策略提供了部分但不足够的缓解。这些发现突出了一个关键且未被充分探索的挑战，为构建可靠的语音界面系统开辟了新的方向。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）在接收语音查询时产生的幻觉问题。现有研究主要集中在图像-文本输入，忽略了语音输入带来的挑战，尤其是在真实场景中存在的各种噪声条件下，语音识别的错误会进一步加剧幻觉现象。

核心思路：核心思路是通过构建一个包含语音查询的基准测试集RePOPE-Spk，系统性地评估MLLM在不同声学条件下的幻觉表现。通过对比文本查询和语音查询的结果，量化语音输入对幻觉的影响，并分析不同因素（如噪声类型、查询长度、输入顺序）对模型鲁棒性的影响。

技术框架：RePOPE-Spk是RePOPE基准的扩展，主要增加了音频输入部分。整体流程如下：1）构建包含图像和对应问题的文本数据集；2）将文本问题转换为语音查询，并模拟不同的声学条件（例如，添加环境噪声）；3）将图像和语音查询输入到MLLM中；4）评估模型生成的答案是否与图像内容一致，从而判断是否存在幻觉。

关键创新：关键创新在于首次系统性地研究了语音查询对多模态LLM幻觉的影响，并构建了一个专门用于评估该问题的基准测试集RePOPE-Spk。该基准考虑了多种声学条件，更贴近真实应用场景。

关键设计：RePOPE-Spk的关键设计包括：1）使用高质量的文本数据集作为基础，保证问题本身的准确性；2）采用专业的语音合成技术将文本转换为语音，并模拟不同的噪声环境；3）设计合理的评估指标，量化模型在不同条件下的幻觉程度；4）考察了多种缓解策略，如多样本提示和思维链推理，以探索提高模型鲁棒性的方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与文本查询相比，语音查询会显著增加多模态LLM的幻觉。在干净语音条件下，错误率增加3%，而在环境噪声下，错误率增加高达20%。此外，输入顺序和查询长度也会影响模型的鲁棒性。多样本提示和思维链推理等策略虽然可以部分缓解幻觉，但效果有限。

🎯 应用场景

该研究成果可应用于开发更可靠的语音助手、智能家居设备和车载信息娱乐系统。通过降低语音查询引起的幻觉，可以提高用户体验，增强用户对AI系统的信任度。未来的研究可以进一步探索更有效的缓解策略，并将其应用于实际产品中。

📄 摘要（原文）

Hallucinations in vision-language models have been extensively studied using benchmarks that probe reliability in image-text settings. In contrast, the effect of spoken queries on multimodal hallucinations remains largely unexplored, despite the growing role of voice-driven interfaces. In this work, we investigate how spoken input influences hallucinations in multimodal large language models. We present RePOPE-Spk, an audio-augmented extension of the RePOPE benchmark, where queries are provided as speech under diverse acoustic conditions. Using RePOPE-Spk, we systematically evaluate both proprietary and open-source models. Experimental results show that hallucinations escalate when queries are spoken rather than written: error rates increase by 3% under clean speech and by up to 20% with environmental noise. Input order and query length further affect robustness, while strategies such as many-shot prompting and chain-of-thought reasoning offer partial but insufficient mitigation. These findings highlight a critical and underexplored challenge, opening new directions for building reliable voice interface systems.

Evaluating Hallucinations in Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理