Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts for LVLMs
作者: Zihao Pan, Yu Tong, Weibin Wu, Jingyi Wang, Lifeng Chen, Zhe Zhao, Jiajia Wei, Yitong Qiao, Zibin Zheng
分类: cs.CV, cs.AI, cs.CR
发布日期: 2025-05-21 (更新: 2025-07-25)
备注: The paper needs major revisions, so it is being withdrawn
💡 一句话要点
提出基于语义演化的盲点导航方法,发现LVLMs对特定语义概念的敏感性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 对抗攻击 语义演化 盲点导航 模型鲁棒性
📋 核心要点
- 现有方法难以解释对抗攻击中模型失效的原因,缺乏对模型敏感语义的理解。
- 提出一种基于语义演化的盲点导航框架,利用LLM和T2I模型高效搜索LVLMs的敏感语义概念。
- 实验表明,该方法能有效发现LVLMs的敏感语义,并在多个模型和任务上验证了其有效性。
📝 摘要(中文)
对抗攻击旨在生成误导深度模型的恶意输入,但除了导致模型失效外,它们无法提供诸如“输入中的哪些内容更容易导致模型失效?”等可解释的信息。然而,这些信息对于研究人员有针对性地提高模型鲁棒性至关重要。最近的研究表明,模型可能对视觉输入中的某些语义(如“潮湿”、“雾蒙蒙”)特别敏感,从而容易出错。受此启发,本文首次探索了大型视觉语言模型(LVLMs),发现LVLMs在面对图像中的特定语义概念时,确实容易产生幻觉和各种错误。为了高效地搜索这些敏感概念,我们整合了大型语言模型(LLMs)和文本到图像(T2I)模型,提出了一种新颖的语义演化框架。随机初始化的语义概念经过基于LLM的交叉和变异操作,形成图像描述,然后通过T2I模型转换为LVLMs的视觉输入。LVLMs在每个输入上的特定任务性能被量化为相关语义的适应度分数,并作为奖励信号,进一步指导LLMs探索诱导LVLMs出错的概念。在七个主流LVLMs和两个多模态任务上的大量实验证明了我们方法的有效性。此外,我们还提供了关于LVLMs敏感语义的有趣发现,旨在激发进一步的深入研究。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLMs)在面对特定语义概念时容易出错的问题。现有的对抗攻击方法虽然可以生成使模型失效的恶意输入,但无法提供关于模型失效原因的可解释信息,例如哪些语义概念会导致模型更容易出错。因此,研究人员难以针对性地提高模型的鲁棒性。
核心思路:论文的核心思路是利用语义演化框架,通过迭代地生成和评估不同的语义概念,来寻找能够诱导LVLMs出错的敏感语义。该框架结合了大型语言模型(LLMs)和文本到图像(T2I)模型,通过LLM生成图像描述,T2I模型将描述转换为视觉输入,然后评估LVLMs在这些输入上的表现,并将表现反馈给LLM,指导其生成更具迷惑性的语义概念。
技术框架:该方法包含以下几个主要模块:1) 语义概念初始化:随机初始化一组语义概念。2) LLM驱动的语义演化:利用LLM对语义概念进行交叉和变异操作,生成新的图像描述。3) T2I模型生成视觉输入:将图像描述输入T2I模型,生成对应的视觉输入。4) LVLM性能评估:评估LVLMs在生成的视觉输入上的任务特定性能,得到适应度分数。5) 奖励信号反馈:将适应度分数作为奖励信号反馈给LLM,指导其进行下一轮的语义演化。
关键创新:该方法最重要的创新点在于将LLM和T2I模型结合起来,构建了一个语义演化框架,能够高效地搜索LVLMs的敏感语义概念。与传统的对抗攻击方法相比,该方法不仅可以导致模型失效,还可以提供关于模型失效原因的可解释信息。
关键设计:在语义演化过程中,LLM使用交叉和变异操作来生成新的语义概念。交叉操作是指将两个语义概念的部分内容进行交换,生成新的语义概念。变异操作是指对语义概念进行随机修改,例如添加、删除或替换某些词语。适应度分数用于量化LVLMs在生成的视觉输入上的任务特定性能,例如分类准确率或文本生成质量。该分数被用作奖励信号,指导LLM进行下一轮的语义演化。
🖼️ 关键图片
📊 实验亮点
该方法在七个主流LVLMs和两个多模态任务上进行了广泛的实验,证明了其有效性。实验结果表明,该方法能够有效地发现LVLMs的敏感语义,例如某些模型对“潮湿”或“雾蒙蒙”等语义特别敏感,容易产生幻觉和错误。这些发现为进一步研究LVLMs的脆弱性和提高其鲁棒性提供了有价值的参考。
🎯 应用场景
该研究成果可应用于提升LVLMs的鲁棒性和安全性,例如通过识别和缓解模型对特定语义的敏感性,减少模型在恶意输入下的误判。此外,该方法还可以用于评估不同LVLMs的安全性,并指导模型的设计和训练,使其更加可靠。
📄 摘要(原文)
Adversarial attacks aim to generate malicious inputs that mislead deep models, but beyond causing model failure, they cannot provide certain interpretable information such as
\textit{What content in inputs make models more likely to fail?}'' However, this information is crucial for researchers to specifically improve model robustness. Recent research suggests that models may be particularly sensitive to certain semantics in visual inputs (such aswet,'' ``foggy''), making them prone to errors. Inspired by this, in this paper we conducted the first exploration on large vision-language models (LVLMs) and found that LVLMs indeed are susceptible to hallucinations and various errors when facing specific semantic concepts in images. To efficiently search for these sensitive concepts, we integrated large language models (LLMs) and text-to-image (T2I) models to propose a novel semantic evolution framework. Randomly initialized semantic concepts undergo LLM-based crossover and mutation operations to form image descriptions, which are then converted by T2I models into visual inputs for LVLMs. The task-specific performance of LVLMs on each input is quantified as fitness scores for the involved semantics and serves as reward signals to further guide LLMs in exploring concepts that induce LVLMs. Extensive experiments on seven mainstream LVLMs and two multimodal tasks demonstrate the effectiveness of our method. Additionally, we provide interesting findings about the sensitive semantics of LVLMs, aiming to inspire further in-depth research.