The Butterfly Effect in Pathology: Exploring Security in Pathology Foundation Models

📄 arXiv: 2505.24141v1 📥 PDF

作者: Jiashuai Liu, Yingjia Shang, Yingkang Zhan, Di Zhang, Yi Niu, Dong Wei, Xian Wu, Zeyu Gao, Chen Li, Yefeng Zheng

分类: cs.CV, cs.AI

发布日期: 2025-05-30

🔗 代码/项目: GITHUB


💡 一句话要点

针对病理学Foundation模型的对抗攻击研究:揭示WSI分析的安全性风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理学 Foundation模型 全切片图像 对抗攻击 安全性 无标签攻击 局部扰动

📋 核心要点

  1. 病理学Foundation模型被广泛应用,但其针对对抗攻击的安全性尚未得到充分研究,存在潜在风险。
  2. 论文提出“局部扰动,全局影响”原则,设计无标签攻击框架,无需下游任务信息即可进行有效攻击。
  3. 实验表明,即使对少量图块进行微小扰动,也能显著降低下游任务的准确率,揭示了模型的脆弱性。

📝 摘要(中文)

随着病理学Foundation模型在研究和临床决策支持系统中的广泛应用,其安全性问题日益重要。本文首次针对全切片图像(WSI)分析的病理学Foundation模型,系统性地研究了其对抗攻击的脆弱性。我们提出了“局部扰动,全局影响”的原则,并设计了一种无需下游任务标签的无标签攻击框架。在此框架下,我们改进了四种经典的白盒攻击方法,并根据WSI的特性重新定义了扰动预算。在五个数据集和六个下游任务上,对三个具有代表性的病理学Foundation模型进行了全面的实验。结果表明,即使仅修改每个切片的0.1%的图块,并加入难以察觉的噪声,攻击仍会导致下游任务的准确率下降高达20%。此外,我们分析了影响攻击成功的关键因素,探讨了图块级脆弱性与语义内容之间的关系,并对潜在的防御策略进行了初步研究。这些发现为未来病理学Foundation模型的对抗鲁棒性和可靠部署奠定了基础。代码已公开。

🔬 方法详解

问题定义:现有病理学Foundation模型在WSI分析中应用广泛,但缺乏对其对抗攻击安全性的系统研究。现有方法主要集中在图像分类等任务,难以直接应用于WSI这种高分辨率、大尺寸的图像,并且通常需要下游任务的标签信息,限制了攻击的适用性。因此,如何评估和提升病理学Foundation模型在WSI分析中的对抗鲁棒性是一个重要问题。

核心思路:论文的核心思路是利用“局部扰动,全局影响”的原则,即通过对WSI中少量关键图块进行微小扰动,从而对整个切片的分析结果产生显著影响。这种思路的优势在于,可以在保证扰动难以察觉的前提下,实现有效的攻击,并且无需依赖下游任务的标签信息。

技术框架:该攻击框架主要包含以下几个步骤:1)选择攻击目标:确定要攻击的WSI和Foundation模型;2)图块选择:根据一定的策略(例如,梯度信息)选择要进行扰动的图块;3)扰动生成:使用改进的白盒攻击方法(如FGSM、PGD等)生成对抗扰动;4)扰动注入:将生成的扰动添加到选定的图块中;5)评估攻击效果:使用下游任务评估指标(如准确率)评估攻击的效果。

关键创新:论文的关键创新在于:1)提出了“局部扰动,全局影响”的攻击原则,更符合WSI的特性;2)设计了一种无标签攻击框架,无需下游任务信息即可进行攻击,适用性更强;3)针对WSI的特点,重新定义了扰动预算,使得攻击更有效;4)系统性地评估了病理学Foundation模型在WSI分析中的对抗鲁棒性。

关键设计:论文的关键设计包括:1)扰动预算的定义:根据WSI的图块数量和扰动比例,限制了每个切片可以修改的图块数量;2)图块选择策略:使用了基于梯度信息的图块选择策略,选择对模型影响最大的图块进行扰动;3)攻击方法的改进:针对WSI的特点,对经典的白盒攻击方法进行了改进,例如,调整了步长和迭代次数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使仅修改每个切片的0.1%的图块,并加入难以察觉的噪声,攻击仍会导致下游任务的准确率下降高达20%。这表明病理学Foundation模型对对抗攻击非常敏感。此外,研究还发现,攻击成功率与图块的语义内容相关,某些类型的组织结构更容易受到攻击。

🎯 应用场景

该研究成果可应用于评估和提升病理学Foundation模型在临床诊断中的可靠性。通过对抗攻击测试,可以发现模型的潜在漏洞,并指导模型开发者设计更鲁棒的算法。此外,该研究还可以促进对抗防御技术在病理图像分析领域的应用,提高医疗AI系统的安全性。

📄 摘要(原文)

With the widespread adoption of pathology foundation models in both research and clinical decision support systems, exploring their security has become a critical concern. However, despite their growing impact, the vulnerability of these models to adversarial attacks remains largely unexplored. In this work, we present the first systematic investigation into the security of pathology foundation models for whole slide image~(WSI) analysis against adversarial attacks. Specifically, we introduce the principle of \textit{local perturbation with global impact} and propose a label-free attack framework that operates without requiring access to downstream task labels. Under this attack framework, we revise four classical white-box attack methods and redefine the perturbation budget based on the characteristics of WSI. We conduct comprehensive experiments on three representative pathology foundation models across five datasets and six downstream tasks. Despite modifying only 0.1\% of patches per slide with imperceptible noise, our attack leads to downstream accuracy degradation that can reach up to 20\% in the worst cases. Furthermore, we analyze key factors that influence attack success, explore the relationship between patch-level vulnerability and semantic content, and conduct a preliminary investigation into potential defence strategies. These findings lay the groundwork for future research on the adversarial robustness and reliable deployment of pathology foundation models. Our code is publicly available at: https://github.com/Jiashuai-Liu-hmos/Attack-WSI-pathology-foundation-models.