Universal and Transferable Attacks on Pathology Foundation Models

📄 arXiv: 2510.16660v1 📥 PDF

作者: Yuntian Wang, Xilin Yang, Che-Yung Shen, Nir Pillar, Aydogan Ozcan

分类: cs.CV, cs.LG, physics.med-ph

发布日期: 2025-10-18

备注: 38 Pages, 8 Figures


💡 一句话要点

提出通用可迁移对抗扰动UTAP,揭示病理学Foundation模型的脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗攻击 病理学AI Foundation模型 通用扰动 可迁移性

📋 核心要点

  1. 病理学Foundation模型在下游任务中表现出色,但缺乏对其鲁棒性的系统评估,容易受到对抗攻击。
  2. 提出通用可迁移对抗扰动UTAP,通过固定的微弱噪声模式,扰乱模型特征表示,降低下游任务性能。
  3. 实验表明UTAP具有通用性和可迁移性,能有效攻击多种病理学Foundation模型,并为模型鲁棒性评估提供基准。

📝 摘要(中文)

本文提出了一种针对病理学Foundation模型的通用可迁移对抗扰动(UTAP),揭示了这些模型在能力上的关键漏洞。UTAP通过深度学习进行优化,包含一种固定的、微弱的噪声模式,当添加到病理图像中时,会系统性地破坏多个病理学Foundation模型的特征表示能力。因此,UTAP会导致利用Foundation模型的下游任务性能下降,包括在各种未见过的数据分布上的错误分类。除了损害模型性能外,本文还展示了UTAP的两个关键特征:(1)通用性:其扰动可以应用于不同的视野,独立于开发UTAP的数据集;(2)可迁移性:其扰动可以成功地降低各种外部的、黑盒病理学Foundation模型的性能——这些模型从未见过。这两个特征表明,UTAP不是与特定Foundation模型或图像数据集相关的专用攻击,而是对各种新兴病理学Foundation模型及其应用的广泛威胁。本文在多个数据集上对各种最先进的病理学Foundation模型进行了系统评估,使用固定的噪声模式对输入图像进行视觉上难以察觉的修改,导致其性能显著下降。这些有效攻击的开发为模型鲁棒性评估建立了一个关键的高标准基准,突出了推进防御机制的必要性,并可能为对抗训练提供必要的资产,以确保人工智能在病理学中的安全可靠部署。

🔬 方法详解

问题定义:病理学Foundation模型虽然在各种任务中表现出色,但其鲁棒性并未得到充分研究。现有的对抗攻击方法通常是针对特定模型和数据集设计的,难以泛化到其他模型或数据集上。因此,如何评估和提高病理学Foundation模型在面对恶意攻击时的鲁棒性是一个重要的问题。

核心思路:本文的核心思路是设计一种通用的、可迁移的对抗扰动,即UTAP。这种扰动能够以固定的模式添加到病理图像中,从而破坏Foundation模型的特征表示能力,导致下游任务性能下降。UTAP的设计目标是使其能够跨越不同的模型和数据集,实现广泛的攻击效果。

技术框架:UTAP的生成过程基于深度学习。首先,选择一个源模型和一个源数据集。然后,通过迭代优化,找到一个固定的噪声模式,使得该模式添加到源数据集的图像上后,能够最大程度地降低源模型在下游任务上的性能。这个优化过程通常涉及到计算损失函数关于噪声模式的梯度,并使用梯度下降法更新噪声模式。最终得到的噪声模式就是UTAP。

关键创新:UTAP的关键创新在于其通用性和可迁移性。传统的对抗攻击方法通常是针对特定模型和数据集设计的,而UTAP则能够跨越不同的模型和数据集,实现广泛的攻击效果。这种通用性和可迁移性使得UTAP成为一种更具威胁性的攻击手段,也使得模型鲁棒性评估变得更加重要。

关键设计:UTAP的关键设计包括损失函数的选择和噪声模式的生成方式。损失函数通常选择下游任务的损失函数,例如分类交叉熵损失。噪声模式的生成方式可以是基于梯度的方法,也可以是基于生成对抗网络(GAN)的方法。此外,为了保证UTAP的隐蔽性,通常会对噪声模式的大小进行限制,使其在视觉上难以察觉。

📊 实验亮点

实验结果表明,UTAP能够显著降低多个最先进的病理学Foundation模型在不同数据集上的性能。例如,在某些数据集上,UTAP能够导致模型分类准确率下降超过30%,且该扰动具有良好的可迁移性,能够成功攻击从未见过的黑盒模型。这些结果表明UTAP是一种有效的攻击手段,并为模型鲁棒性评估提供了重要参考。

🎯 应用场景

该研究成果可应用于病理学AI系统的安全性评估与防御。通过UTAP攻击,可以发现模型潜在的脆弱性,从而促进更鲁棒的病理学AI模型开发。此外,该研究也为对抗训练提供了有价值的攻击样本,有助于提高模型在实际应用中的安全性。

📄 摘要(原文)

We introduce Universal and Transferable Adversarial Perturbations (UTAP) for pathology foundation models that reveal critical vulnerabilities in their capabilities. Optimized using deep learning, UTAP comprises a fixed and weak noise pattern that, when added to a pathology image, systematically disrupts the feature representation capabilities of multiple pathology foundation models. Therefore, UTAP induces performance drops in downstream tasks that utilize foundation models, including misclassification across a wide range of unseen data distributions. In addition to compromising the model performance, we demonstrate two key features of UTAP: (1) universality: its perturbation can be applied across diverse field-of-views independent of the dataset that UTAP was developed on, and (2) transferability: its perturbation can successfully degrade the performance of various external, black-box pathology foundation models - never seen before. These two features indicate that UTAP is not a dedicated attack associated with a specific foundation model or image dataset, but rather constitutes a broad threat to various emerging pathology foundation models and their applications. We systematically evaluated UTAP across various state-of-the-art pathology foundation models on multiple datasets, causing a significant drop in their performance with visually imperceptible modifications to the input images using a fixed noise pattern. The development of these potent attacks establishes a critical, high-standard benchmark for model robustness evaluation, highlighting a need for advancing defense mechanisms and potentially providing the necessary assets for adversarial training to ensure the safe and reliable deployment of AI in pathology.