GHOST: Hallucination-Inducing Image Generation for Multimodal LLMs
作者: Aryan Yazdan Parast, Parsa Hosseini, Hesam Asadollahzadeh, Arshia Soltani Moakhar, Basim Azam, Soheil Feizi, Naveed Akhtar
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-09-29
💡 一句话要点
GHOST:通过诱导幻觉的图像生成方法,用于压力测试多模态LLM
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 对象幻觉 对抗样本生成 图像嵌入优化 扩散模型
📋 核心要点
- 多模态大语言模型(MLLM)容易产生对象幻觉,即识别图像中不存在的对象,现有研究缺乏主动挖掘模型脆弱性的方法。
- GHOST通过优化图像嵌入空间,生成具有误导性线索的图像,诱导MLLM产生幻觉,无需人工干预,实现自动压力测试。
- 实验表明,GHOST能有效诱导多种MLLM产生幻觉,成功率显著高于现有方法,且生成的图像质量高,可用于模型微调以缓解幻觉。
📝 摘要(中文)
多模态大型语言模型(MLLM)中的对象幻觉是一种持续存在的失效模式,导致模型感知到图像中不存在的对象。目前,对MLLM的这种弱点的研究主要使用静态基准,这些基准具有固定的视觉场景,从而排除了发现模型特定或意外幻觉漏洞的可能性。我们引入了GHOST(通过优化隐蔽令牌生成幻觉),这是一种旨在通过主动生成诱导幻觉的图像来压力测试MLLM的方法。GHOST是完全自动的,不需要人工监督或先验知识。它通过在图像嵌入空间中进行优化来误导模型,同时保持目标对象不存在,然后引导以该嵌入为条件的扩散模型生成自然外观的图像。生成的图像在视觉上保持自然,并且接近原始输入,但引入了细微的误导性线索,导致模型产生幻觉。我们在一系列模型(包括推理模型GLM-4.1V-Thinking)上评估了我们的方法,并实现了超过28%的幻觉成功率,而先前的数据驱动发现方法的成功率约为1%。我们通过定量指标和人工评估证实,生成的图像既高质量又没有对象。此外,GHOST揭示了可转移的漏洞:为Qwen2.5-VL优化的图像以66.5%的速率在GPT-4o中诱发幻觉。最后,我们表明,在我们的图像上进行微调可以减轻幻觉,从而使GHOST成为构建更可靠的多模态系统的诊断和纠正工具。
🔬 方法详解
问题定义:多模态大型语言模型(MLLM)在理解图像内容时,经常会产生“幻觉”,即错误地识别出图像中不存在的物体。现有的研究主要依赖于静态数据集进行评估,无法主动发现模型潜在的、模型特定的幻觉漏洞。因此,如何设计一种自动化的方法,主动诱导MLLM产生幻觉,从而更好地评估和改进模型的鲁棒性,是一个重要的挑战。
核心思路:GHOST的核心思路是通过优化图像的嵌入表示,在图像中引入细微的、不易察觉的误导性线索,从而欺骗MLLM,使其产生幻觉。这种方法无需人工干预,可以自动生成能够暴露模型弱点的图像。通过控制图像嵌入,可以确保生成的图像在视觉上与原始图像相似,同时又包含足以诱导幻觉的线索。
技术框架:GHOST的整体框架包含以下几个主要阶段:1) 初始化:选择一张不包含目标对象的图像作为输入。2) 嵌入优化:在图像嵌入空间中,通过梯度下降等优化算法,寻找能够最大化模型幻觉概率的嵌入向量。优化的目标是使模型更有可能识别出目标对象,即使该对象实际上并不存在。3) 图像生成:使用条件扩散模型,以优化后的嵌入向量为条件,生成最终的图像。扩散模型负责将嵌入向量转化为逼真的图像,同时保留嵌入向量中包含的误导性线索。4) 验证:通过定量指标和人工评估,验证生成的图像的质量和是否成功诱导了幻觉。
关键创新:GHOST的关键创新在于其主动诱导幻觉的能力。与传统的被动评估方法不同,GHOST能够根据模型的特性,有针对性地生成能够暴露其弱点的图像。这种主动式的测试方法能够更全面地评估模型的鲁棒性,并为模型的改进提供更有效的指导。此外,GHOST的自动化流程也大大降低了测试的成本和复杂度。
关键设计:GHOST的关键设计包括:1) 嵌入优化目标:使用交叉熵损失函数,最大化模型预测目标对象存在的概率。2) 扩散模型条件:使用优化后的图像嵌入向量作为扩散模型的条件,控制生成图像的内容和风格。3) 正则化项:为了保证生成图像的质量,引入正则化项,约束生成图像与原始图像的相似度。4) 隐蔽令牌:通过优化隐蔽令牌,在不改变图像主要内容的情况下,引入细微的误导性线索。
📊 实验亮点
GHOST在多种MLLM上实现了显著的幻觉诱导效果,成功率超过28%,远高于传统数据驱动方法的1%。实验还发现,为Qwen2.5-VL优化的图像,在GPT-4o上也能以66.5%的概率诱发幻觉,表明GHOST发现的漏洞具有可迁移性。通过在GHOST生成的图像上进行微调,可以有效缓解模型的幻觉问题。
🎯 应用场景
GHOST可用于多模态大语言模型的安全性和可靠性评估,帮助开发者发现模型潜在的幻觉漏洞。通过生成对抗样本,可以训练更鲁棒的模型,减少实际应用中的错误识别。此外,该方法还可用于生成特定场景下的测试用例,例如自动驾驶、医疗诊断等领域,提高模型在复杂环境下的适应性。
📄 摘要(原文)
Object hallucination in Multimodal Large Language Models (MLLMs) is a persistent failure mode that causes the model to perceive objects absent in the image. This weakness of MLLMs is currently studied using static benchmarks with fixed visual scenarios, which preempts the possibility of uncovering model-specific or unanticipated hallucination vulnerabilities. We introduce GHOST (Generating Hallucinations via Optimizing Stealth Tokens), a method designed to stress-test MLLMs by actively generating images that induce hallucination. GHOST is fully automatic and requires no human supervision or prior knowledge. It operates by optimizing in the image embedding space to mislead the model while keeping the target object absent, and then guiding a diffusion model conditioned on the embedding to generate natural-looking images. The resulting images remain visually natural and close to the original input, yet introduce subtle misleading cues that cause the model to hallucinate. We evaluate our method across a range of models, including reasoning models like GLM-4.1V-Thinking, and achieve a hallucination success rate exceeding 28%, compared to around 1% in prior data-driven discovery methods. We confirm that the generated images are both high-quality and object-free through quantitative metrics and human evaluation. Also, GHOST uncovers transferable vulnerabilities: images optimized for Qwen2.5-VL induce hallucinations in GPT-4o at a 66.5% rate. Finally, we show that fine-tuning on our images mitigates hallucination, positioning GHOST as both a diagnostic and corrective tool for building more reliable multimodal systems.