DeepSeek on a Trip: Inducing Targeted Visual Hallucinations via Representation Vulnerabilities
作者: Chashi Mahiul Islam, Samuel Jacob Chacko, Preston Horne, Xiuwen Liu
分类: cs.CV, cs.LG
发布日期: 2025-02-11
备注: 19 pages, 4 figures
💡 一句话要点
通过表征脆弱性诱导DeepSeek模型产生目标视觉幻觉
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉幻觉 嵌入操纵攻击 DeepSeek Janus 表征脆弱性
📋 核心要点
- 多模态大语言模型存在视觉-语言集成机制的脆弱性,容易受到攻击并产生幻觉。
- 通过优化图像嵌入,论文提出了一种嵌入操纵攻击方法,诱导DeepSeek Janus产生目标视觉幻觉。
- 实验表明,该方法在保持图像高保真度的前提下,能有效诱导DeepSeek Janus产生高达98%的幻觉。
📝 摘要(中文)
多模态大型语言模型(MLLM)代表了人工智能技术的前沿,其中DeepSeek模型作为领先的开源替代方案,提供了与闭源系统相媲美的性能。尽管这些模型展示了卓越的能力,但其视觉-语言集成机制引入了特定的脆弱性。我们对DeepSeek Janus实施了一种改进的嵌入操纵攻击,通过系统地优化图像嵌入来诱导目标视觉幻觉。通过在COCO、DALL-E 3和SVIT数据集上进行的大量实验,我们实现了高达98.0%的幻觉率,同时在开放式问题中保持了被操纵图像的高视觉保真度(SSIM > 0.88)。我们的分析表明,DeepSeek Janus的1B和7B变体都容易受到这些攻击,封闭式评估显示出比开放式提问始终更高的幻觉率。我们引入了一种使用LLaMA-3.1 8B Instruct的新型多提示幻觉检测框架,用于稳健的评估。鉴于DeepSeek的开源性质和广泛的部署潜力,这些发现的意义尤其令人担忧。这项研究强调了在MLLM部署管道中采取嵌入级安全措施的迫切需要,并有助于更广泛的负责任的AI实施讨论。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)中存在的视觉幻觉问题,特别是针对DeepSeek Janus模型。现有方法难以有效且可控地诱导模型产生特定目标的视觉幻觉,并且缺乏针对幻觉检测的有效评估框架。
核心思路:论文的核心思路是通过操纵图像的嵌入表示,使得模型在视觉理解上产生偏差,从而诱导其产生预设目标的幻觉。这种方法利用了模型视觉-语言集成机制的脆弱性,通过优化嵌入空间中的扰动来实现目标幻觉。
技术框架:整体框架包括以下几个主要步骤:1) 选择目标MLLM(DeepSeek Janus);2) 设计目标幻觉内容;3) 通过优化算法(例如梯度下降)寻找能够诱导目标幻觉的图像嵌入扰动;4) 将被操纵的图像输入MLLM,并观察其输出是否符合预设的幻觉目标;5) 使用LLaMA-3.1 8B Instruct构建的多提示幻觉检测框架进行评估。
关键创新:论文的关键创新在于:1) 提出了一种针对DeepSeek Janus的嵌入操纵攻击方法,能够有效诱导目标视觉幻觉;2) 设计了一种基于LLaMA-3.1 8B Instruct的多提示幻觉检测框架,用于更鲁棒地评估幻觉现象;3) 通过实验验证了该方法在不同数据集和模型规模下的有效性。
关键设计:关键设计包括:1) 嵌入扰动的优化算法,例如使用梯度下降法最小化幻觉目标与模型输出之间的差异;2) 损失函数的设计,用于衡量模型输出与目标幻觉之间的相似度;3) 多提示幻觉检测框架中,提示语的设计,需要能够有效激发模型对图像内容的理解和推理能力;4) 使用结构相似性指数 (SSIM) 来衡量图像被操纵后的视觉保真度,确保攻击的隐蔽性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在COCO、DALL-E 3和SVIT数据集上均能有效诱导DeepSeek Janus产生目标视觉幻觉,幻觉率最高可达98.0%,同时保持了较高的视觉保真度(SSIM > 0.88)。对比实验还发现,DeepSeek Janus的1B和7B变体都容易受到攻击,且封闭式评估的幻觉率高于开放式提问。
🎯 应用场景
该研究成果可应用于评估和提升多模态大语言模型的安全性与鲁棒性,尤其是在图像理解和视觉推理方面。通过发现和修复模型中的脆弱性,可以防止恶意攻击者利用这些漏洞进行欺骗、误导或传播虚假信息。此外,该研究也有助于开发更可靠的幻觉检测方法,提高模型在实际应用中的可信度。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) represent the cutting edge of AI technology, with DeepSeek models emerging as a leading open-source alternative offering competitive performance to closed-source systems. While these models demonstrate remarkable capabilities, their vision-language integration mechanisms introduce specific vulnerabilities. We implement an adapted embedding manipulation attack on DeepSeek Janus that induces targeted visual hallucinations through systematic optimization of image embeddings. Through extensive experimentation across COCO, DALL-E 3, and SVIT datasets, we achieve hallucination rates of up to 98.0% while maintaining high visual fidelity (SSIM > 0.88) of the manipulated images on open-ended questions. Our analysis demonstrates that both 1B and 7B variants of DeepSeek Janus are susceptible to these attacks, with closed-form evaluation showing consistently higher hallucination rates compared to open-ended questioning. We introduce a novel multi-prompt hallucination detection framework using LLaMA-3.1 8B Instruct for robust evaluation. The implications of these findings are particularly concerning given DeepSeek's open-source nature and widespread deployment potential. This research emphasizes the critical need for embedding-level security measures in MLLM deployment pipelines and contributes to the broader discussion of responsible AI implementation.