I'll believe it when I see it: Images increase misinformation sharing in Vision-Language Models

📄 arXiv: 2505.13302v1 📥 PDF

作者: Alice Plebe, Timothy Douglas, Diana Riazi, R. Maria del Rio-Chanona

分类: cs.CL

发布日期: 2025-05-19

🔗 代码/项目: GITHUB


💡 一句话要点

图像增强视觉-语言模型中的虚假信息传播:一项关于图像影响力的研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 虚假信息传播 多模态分析 提示工程 新闻推荐系统

📋 核心要点

  1. 现有新闻推荐系统中的大型语言模型可能助长虚假信息的传播,但视觉内容对模型转发行为的影响尚不明确。
  2. 该研究提出了一种受越狱攻击启发的提示策略,并构建了一个包含图像和真实性标签的多模态政治新闻数据集。
  3. 实验表明,图像的存在会显著增加VLMs转发虚假新闻的概率,且人物角色设定会进一步调节这种影响。

📝 摘要(中文)

大型语言模型正日益融入新闻推荐系统,引发了对其在传播虚假信息中所扮演角色的担忧。在人类认知中,视觉内容能够增强信息的可信度和可分享性,然而,它对视觉-语言模型(VLMs)的影响尚不明确。本研究首次探讨了图像如何影响VLMs转发新闻内容的倾向,以及这种影响是否因模型家族而异,以及人物角色设定和内容属性如何调节这种行为。为了支持这项分析,我们提出了两项方法论贡献:一种受越狱攻击启发的提示策略,旨在引出VLMs的转发决策,同时模拟具有反社会特征和政治倾向的用户;以及一个来自PolitiFact的事实核查政治新闻的多模态数据集,其中包含相应的图像和真实性标签。跨模型家族的实验表明,图像的存在使真实新闻的转发率提高了4.8%,而虚假新闻的转发率提高了15.0%。人物角色设定进一步调节了这种影响:黑暗人格特质放大了虚假新闻的转发,而共和党倾向的个人资料则降低了对真实性的敏感度。在所有测试模型中,只有Claude-3-Haiku表现出对视觉虚假信息的鲁棒性。这些发现突出了多模态模型行为中出现的新风险,并推动了针对个性化AI系统的定制评估框架和缓解策略的开发。代码和数据集可在https://github.com/3lis/misinfo_vlm获取。

🔬 方法详解

问题定义:论文旨在研究图像的存在如何影响视觉-语言模型(VLMs)转发新闻内容(包括真实和虚假新闻)的倾向。现有方法缺乏对视觉信息在VLMs中传播虚假信息影响的系统性研究,并且难以模拟具有特定性格特征和政治倾向的用户行为。

核心思路:论文的核心思路是通过构建一个包含图像和事实核查标签的多模态数据集,并设计一种受越狱攻击启发的提示策略,来诱导VLMs进行新闻转发决策,同时模拟不同性格和政治倾向的用户。通过分析VLMs在不同条件下的转发行为,评估图像对虚假信息传播的影响。

技术框架:该研究的技术框架主要包括以下几个部分:1) 构建多模态数据集:收集来自PolitiFact的事实核查政治新闻,并配以相应的图像和真实性标签。2) 设计提示策略:开发一种受越狱攻击启发的提示策略,以诱导VLMs进行新闻转发决策,并模拟具有不同性格特征(如黑暗人格特质)和政治倾向的用户。3) 进行实验评估:使用不同的VLMs(包括Claude-3-Haiku等)在构建的数据集上进行实验,分析图像的存在、人物角色设定等因素对新闻转发率的影响。

关键创新:该研究的关键创新在于:1) 首次系统性地研究了图像对VLMs传播虚假信息的影响。2) 提出了一种受越狱攻击启发的提示策略,能够有效地诱导VLMs进行新闻转发决策,并模拟具有特定性格特征和政治倾向的用户。3) 构建了一个包含图像和事实核查标签的多模态政治新闻数据集,为相关研究提供了数据基础。

关键设计:在提示策略设计方面,论文采用了受越狱攻击启发的思路,通过精心设计的提示语,绕过VLMs的安全限制,使其能够模拟具有反社会特征和政治倾向的用户行为。在实验评估方面,论文采用了控制变量的方法,分别考察了图像的存在、人物角色设定等因素对新闻转发率的影响,并对不同VLMs的性能进行了比较分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,图像的存在会显著增加VLMs转发虚假新闻的概率(提升15.0%),而真实新闻的转发率仅提升4.8%。具有黑暗人格特质的人物角色设定会进一步放大虚假新闻的转发,而共和党倾向的个人资料则降低了对真实性的敏感度。值得注意的是,Claude-3-Haiku模型表现出对视觉虚假信息的鲁棒性。

🎯 应用场景

该研究成果可应用于改进新闻推荐系统,降低虚假信息传播的风险。通过分析视觉信息对模型决策的影响,可以开发更鲁棒的算法,提高模型对虚假信息的识别能力。此外,该研究的方法论可以推广到其他多模态任务中,例如图像字幕生成、视觉问答等,从而提升AI系统的安全性和可靠性。

📄 摘要(原文)

Large language models are increasingly integrated into news recommendation systems, raising concerns about their role in spreading misinformation. In humans, visual content is known to boost credibility and shareability of information, yet its effect on vision-language models (VLMs) remains unclear. We present the first study examining how images influence VLMs' propensity to reshare news content, whether this effect varies across model families, and how persona conditioning and content attributes modulate this behavior. To support this analysis, we introduce two methodological contributions: a jailbreaking-inspired prompting strategy that elicits resharing decisions from VLMs while simulating users with antisocial traits and political alignments; and a multimodal dataset of fact-checked political news from PolitiFact, paired with corresponding images and ground-truth veracity labels. Experiments across model families reveal that image presence increases resharing rates by 4.8% for true news and 15.0% for false news. Persona conditioning further modulates this effect: Dark Triad traits amplify resharing of false news, whereas Republican-aligned profiles exhibit reduced veracity sensitivity. Of all the tested models, only Claude-3-Haiku demonstrates robustness to visual misinformation. These findings highlight emerging risks in multimodal model behavior and motivate the development of tailored evaluation frameworks and mitigation strategies for personalized AI systems. Code and dataset are available at: https://github.com/3lis/misinfo_vlm