SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models

📄 arXiv: 2502.14908v2 📥 PDF

作者: Peter Carragher, Nikitha Rao, Abhinand Jha, R Raghav, Kathleen M. Carley

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2025-02-19 (更新: 2025-05-09)

期刊: MisD 2025: 1st Workshop on Misinformation Detection in the Era of LLMs

DOI: 10.36190/2025.27


💡 一句话要点

提出SegSub框架以解决视觉语言模型中的知识冲突问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 知识冲突 多模态推理 图像扰动 鲁棒性评估

📋 核心要点

  1. 现有视觉语言模型在面对知识冲突时容易产生幻觉,影响其在信息敏感场景中的应用。
  2. 本研究提出SegSub框架,通过图像扰动评估VLM对知识冲突的鲁棒性,探索其脆弱性模式。
  3. 实验结果表明,VLM在知识冲突检测上有显著提升,尤其是在反事实条件和源冲突的识别上。

📝 摘要(中文)

视觉语言模型(VLM)展示了复杂的多模态推理能力,但在面对知识冲突时容易产生幻觉,这限制了其在信息敏感环境中的应用。现有研究主要集中于单模态模型的鲁棒性,而多模态领域对跨模态知识冲突的系统性研究尚缺乏。本研究提出了SegSub框架,通过针对性的图像扰动来评估VLM对知识冲突的抵抗力。分析结果显示,VLM对参数冲突具有一定的鲁棒性(20%的遵循率),但在识别反事实条件和解决源冲突方面表现出显著弱点(准确率均低于30%)。通过针对性的微调,我们在知识冲突检测上取得了显著提升,为在信息敏感环境中开发抗幻觉的多模态系统奠定了基础。

🔬 方法详解

问题定义:本研究旨在解决视觉语言模型在面对知识冲突时产生幻觉的问题。现有方法对多模态知识冲突的系统性研究不足,导致模型在信息敏感环境中的应用受限。

核心思路:论文提出SegSub框架,通过针对性的图像扰动来评估和提高VLM对知识冲突的抵抗力。该方法旨在揭示模型的脆弱性,并通过微调提升其性能。

技术框架:整体架构包括图像扰动生成模块、知识冲突评估模块和微调模块。首先生成扰动图像,然后评估模型在这些图像上的表现,最后通过微调优化模型。

关键创新:最重要的技术创新在于引入了针对性的图像扰动来系统性地评估VLM的鲁棒性,这与现有方法的单一评估方式有本质区别。

关键设计:在参数设置上,采用了特定的损失函数来优化模型在知识冲突场景下的表现,网络结构则基于现有的VLM架构进行微调,以适应新的评估任务。

📊 实验亮点

实验结果显示,VLM在识别参数冲突时的遵循率为20%,而在反事实条件和源冲突的识别准确率分别低于30%和1%。通过针对性的微调,知识冲突检测的性能显著提升,为多模态系统的应用提供了新的思路。

🎯 应用场景

该研究的潜在应用领域包括信息检索、自动问答系统和多模态内容生成等。通过提高视觉语言模型在知识冲突场景下的鲁棒性,可以增强其在实际应用中的可靠性,特别是在医疗、法律等信息敏感领域。未来,该框架有望推动更智能的多模态系统的发展。

📄 摘要(原文)

Vision language models (VLM) demonstrate sophisticated multimodal reasoning yet are prone to hallucination when confronted with knowledge conflicts, impeding their deployment in information-sensitive contexts. While existing research addresses robustness in unimodal models, the multimodal domain lacks systematic investigation of cross-modal knowledge conflicts. This research introduces \segsub, a framework for applying targeted image perturbations to investigate VLM resilience against knowledge conflicts. Our analysis reveals distinct vulnerability patterns: while VLMs are robust to parametric conflicts (20% adherence rates), they exhibit significant weaknesses in identifying counterfactual conditions (<30% accuracy) and resolving source conflicts (<1% accuracy). Correlations between contextual richness and hallucination rate (r = -0.368, p = 0.003) reveal the kinds of images that are likely to cause hallucinations. Through targeted fine-tuning on our benchmark dataset, we demonstrate improvements in VLM knowledge conflict detection, establishing a foundation for developing hallucination-resilient multimodal systems in information-sensitive environments.