A Systematic Study of Model Extraction Attacks on Graph Foundation Models

📄 arXiv: 2511.11912v1 📥 PDF

作者: Haoyan Xu, Ruizhi Qian, Jiate Li, Yushun Dong, Minghao Lin, Hanson Yan, Zhengtao Yao, Qinghua Liu, Junhao Dong, Ruopeng Huang, Yue Zhao, Mengyuan Li

分类: cs.LG, cs.CR

发布日期: 2025-11-14


💡 一句话要点

针对图基础模型的模型提取攻击系统性研究,揭示其安全风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图基础模型 模型提取攻击 图神经网络 黑盒攻击 安全风险

📋 核心要点

  1. 现有模型提取攻击主要集中于小型图神经网络,缺乏对大规模图基础模型(GFM)安全性的深入研究。
  2. 论文提出一种轻量级的模型提取方法,通过监督回归训练攻击者编码器,使其能够模仿受害者GFM的嵌入表示。
  3. 实验表明,攻击者可以使用极小的训练成本,在几乎不损失精度的情况下,成功提取GFM的知识,揭示了其安全隐患。

📝 摘要(中文)

图机器学习在链接预测、异常检测和节点分类等任务中取得了快速进展。随着模型规模的扩大,预训练图模型因其编码了大量的计算和领域专业知识而成为有价值的知识产权。图基础模型(GFM)通过在海量和多样化数据上联合预训练图和文本编码器,标志着向前迈进了一大步。这统一了结构和语义理解,实现了零样本推理,并支持欺诈检测和生物医学分析等应用。然而,GFM的高预训练成本和广泛的跨领域知识也使其成为模型提取攻击(MEA)的有吸引力的目标。以往的工作只关注在单个图上训练的小型图神经网络,而大规模和多模态GFM的安全影响在很大程度上未被探索。本文首次对针对GFM的MEA进行了系统研究。我们形式化了一个黑盒威胁模型,并定义了六种实际的攻击场景,涵盖了领域级和图特定的提取目标、架构不匹配、有限的查询预算、部分节点访问和训练数据差异。为了实例化这些攻击,我们引入了一种轻量级的提取方法,该方法使用图嵌入的监督回归来训练攻击者编码器。即使没有对比预训练数据,该方法也能学习到一个与受害者文本编码器保持一致的编码器,并保留其在未见图上的零样本推理能力。在七个数据集上的实验表明,攻击者只需使用原始训练成本的一小部分即可近似受害者模型,且几乎没有精度损失。这些发现表明,GFM极大地扩展了MEA的攻击面,并强调了在大型图学习系统中部署感知安全防御的必要性。

🔬 方法详解

问题定义:论文旨在研究针对图基础模型(GFM)的模型提取攻击(MEA)问题。现有的MEA研究主要集中在小型图神经网络上,缺乏对大规模、多模态GFM的系统性分析。GFM由于其高昂的预训练成本和广泛的跨领域知识,成为更具吸引力的攻击目标。因此,如何评估和缓解GFM面临的MEA风险是一个重要的研究问题。

核心思路:论文的核心思路是设计一种轻量级的MEA方法,该方法能够在黑盒威胁模型下,仅通过查询目标GFM的嵌入表示,即可训练出一个近似的替代模型。该方法旨在最小化攻击者的训练成本,同时保持较高的提取精度和泛化能力。通过这种方式,可以有效地评估GFM在不同攻击场景下的脆弱性。

技术框架:整体框架包括以下几个主要步骤:1) 定义黑盒威胁模型和攻击场景,涵盖不同的攻击目标、资源限制和数据差异;2) 设计轻量级的攻击者编码器,用于学习图的嵌入表示;3) 使用监督回归方法,将攻击者编码器的输出与目标GFM的嵌入表示对齐;4) 在多个数据集上进行实验,评估攻击的有效性和效率。

关键创新:论文的关键创新在于提出了一种轻量级的MEA方法,该方法不需要对比预训练数据,即可学习到一个与受害者文本编码器保持一致的编码器,并保留其在未见图上的零样本推理能力。这种方法降低了攻击的复杂性和成本,使其更具实际意义。此外,论文还系统地研究了不同攻击场景下的GFM脆弱性,为未来的安全防御提供了指导。

关键设计:攻击者编码器采用简单的神经网络结构,例如多层感知机(MLP)。损失函数采用均方误差(MSE),用于衡量攻击者编码器的输出与目标GFM嵌入表示之间的差异。关键参数包括学习率、批大小和训练轮数。论文还考虑了不同的图结构编码方法,例如节点属性编码和邻接矩阵编码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,攻击者可以使用原始训练成本的一小部分(例如,仅使用10%的训练数据),即可近似受害者模型,且几乎没有精度损失。在多个数据集上,攻击者提取的模型在节点分类、链接预测等任务上取得了与受害者模型相近的性能。这表明GFM对模型提取攻击非常敏感,需要采取有效的安全措施。

🎯 应用场景

该研究成果可应用于评估和提升图基础模型在实际部署中的安全性。通过模拟各种模型提取攻击场景,可以发现GFM的潜在漏洞,并开发相应的防御机制,例如对抗训练、差分隐私等。这对于保护GFM的知识产权,防止恶意利用具有重要意义,尤其是在金融欺诈检测、生物医药分析等敏感领域。

📄 摘要(原文)

Graph machine learning has advanced rapidly in tasks such as link prediction, anomaly detection, and node classification. As models scale up, pretrained graph models have become valuable intellectual assets because they encode extensive computation and domain expertise. Building on these advances, Graph Foundation Models (GFMs) mark a major step forward by jointly pretraining graph and text encoders on massive and diverse data. This unifies structural and semantic understanding, enables zero-shot inference, and supports applications such as fraud detection and biomedical analysis. However, the high pretraining cost and broad cross-domain knowledge in GFMs also make them attractive targets for model extraction attacks (MEAs). Prior work has focused only on small graph neural networks trained on a single graph, leaving the security implications for large-scale and multimodal GFMs largely unexplored. This paper presents the first systematic study of MEAs against GFMs. We formalize a black-box threat model and define six practical attack scenarios covering domain-level and graph-specific extraction goals, architectural mismatch, limited query budgets, partial node access, and training data discrepancies. To instantiate these attacks, we introduce a lightweight extraction method that trains an attacker encoder using supervised regression of graph embeddings. Even without contrastive pretraining data, this method learns an encoder that stays aligned with the victim text encoder and preserves its zero-shot inference ability on unseen graphs. Experiments on seven datasets show that the attacker can approximate the victim model using only a tiny fraction of its original training cost, with almost no loss in accuracy. These findings reveal that GFMs greatly expand the MEA surface and highlight the need for deployment-aware security defenses in large-scale graph learning systems.