Once Correct, Still Wrong: Counterfactual Hallucination in Multilingual Vision-Language Models
作者: Basel Mousi, Fahim Dalvi, Shammur Chowdhury, Firoj Alam, Nadir Durrani
分类: cs.CL
发布日期: 2026-02-05
💡 一句话要点
提出M2CQA基准与CFHR指标,揭示多语言视觉-语言模型在文化背景下的反事实幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 反事实幻觉 多语言 文化背景 基准数据集 评估指标 中东和北非
📋 核心要点
- 现有视觉-语言模型在文化背景下易产生反事实幻觉,现有基准测试覆盖不足。
- 提出M2CQA基准和CFHR指标,用于评估模型在多语言文化环境下的反事实幻觉。
- 实验表明,即使真实语句准确率高,阿拉伯语(特别是方言)的反事实幻觉率显著上升。
📝 摘要(中文)
视觉-语言模型(VLM)虽然能达到很高的准确率,但仍可能接受在文化上合理但视觉上不正确的解释。现有的幻觉基准很少测试这种失败模式,尤其是在西方语境和英语之外。我们引入了M2CQA,这是一个文化相关的多模态基准,由横跨17个中东和北非(MENA)国家的图像组成,并配以英语、阿拉伯语及其方言的对比性真实和反事实陈述。为了在原始准确率之外隔离幻觉,我们提出了反事实幻觉率(CFHR),它衡量在正确回答真实陈述的情况下,接受反事实陈述的程度。通过多种提示策略评估最先进的VLM,我们发现即使真实陈述的准确率保持很高,CFHR在阿拉伯语中急剧上升,尤其是在方言中。此外,推理优先的提示始终会增加反事实幻觉,而先回答后解释则提高了鲁棒性。我们将向社区公开实验资源和数据集。
🔬 方法详解
问题定义:现有的视觉-语言模型(VLM)在处理多语言和多文化背景下的视觉信息时,容易产生“反事实幻觉”,即模型在正确理解真实陈述的基础上,仍然接受文化上合理但视觉上不正确的解释。现有幻觉基准主要集中在西方语境和英语,缺乏对其他文化背景的深入评估。因此,模型在特定文化背景下的错误认知难以被有效检测和纠正。
核心思路:论文的核心思路是构建一个更具文化针对性的多模态基准数据集,并设计一种新的评估指标来量化VLM中的反事实幻觉。通过对比真实陈述和反事实陈述,并结合文化背景知识,可以更准确地评估模型在理解和推理视觉信息时的可靠性。
技术框架:论文主要包含以下几个关键部分:1) 构建M2CQA数据集:收集来自17个中东和北非国家的图像,并为每张图像生成英语、阿拉伯语及其方言的真实陈述和反事实陈述。2) 提出CFHR指标:该指标衡量在正确回答真实陈述的情况下,模型接受反事实陈述的程度。3) 实验评估:使用不同的提示策略评估最先进的VLM在M2CQA数据集上的表现,并分析CFHR的变化。
关键创新:论文的关键创新在于:1) 提出了M2CQA数据集,该数据集专注于中东和北非地区的文化背景,填补了现有幻觉基准在文化多样性方面的空白。2) 提出了CFHR指标,该指标能够更准确地量化VLM中的反事实幻觉,并区分由于简单错误和由于文化背景导致的错误。
关键设计:M2CQA数据集包含对比性的真实陈述和反事实陈述,这些陈述在视觉上略有不同,但在文化上都具有一定的合理性。CFHR指标的计算方式为:CFHR = (错误回答反事实陈述且正确回答真实陈述的样本数) / (正确回答真实陈述的样本总数)。论文还探索了不同的提示策略,例如“推理优先”和“先回答后解释”,以研究它们对反事实幻觉的影响。
📊 实验亮点
实验结果表明,即使在真实陈述准确率较高的情况下,最先进的VLM在阿拉伯语(尤其是方言)中的CFHR显著上升。此外,推理优先的提示策略会增加反事实幻觉,而先回答后解释的策略则提高了模型的鲁棒性。这些发现揭示了VLM在处理多语言和多文化信息时面临的挑战。
🎯 应用场景
该研究成果可应用于提升多语言视觉-语言模型在跨文化场景下的可靠性和安全性,例如在智能客服、内容审核、文化遗产保护等领域,减少因文化差异导致的错误理解和不当行为。未来可进一步应用于开发更具文化敏感性的AI系统,促进不同文化之间的交流与理解。
📄 摘要(原文)
Vision-language models (VLMs) can achieve high accuracy while still accepting culturally plausible but visually incorrect interpretations. Existing hallucination benchmarks rarely test this failure mode, particularly outside Western contexts and English. We introduce M2CQA, a culturally grounded multimodal benchmark built from images spanning 17 MENA countries, paired with contrastive true and counterfactual statements in English, Arabic, and its dialects. To isolate hallucination beyond raw accuracy, we propose the CounterFactual Hallucination Rate (CFHR), which measures counterfactual acceptance conditioned on correctly answering the true statement. Evaluating state-of-the-art VLMs under multiple prompting strategies, we find that CFHR rises sharply in Arabic, especially in dialects, even when true-statement accuracy remains high. Moreover, reasoning-first prompting consistently increases counterfactual hallucination, while answering before justifying improves robustness. We will make the experimental resources and dataset publicly available for the community.