An Embarrassingly Simple Detector for Model Extraction Attacks in Large Language Model API Traffic
作者: Shuze Liu, Qianwen Guo, Yushun Dong
分类: cs.CR, cs.CL
发布日期: 2026-06-04
备注: Preprint. Code available at https://github.com/LabRAI/mmd-llm-mea-detection
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种简单有效的检测器以应对大语言模型API的模型提取攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型提取 大语言模型 API安全 异常检测 最大均值差异 流量监测 机器学习
📋 核心要点
- 核心问题:现有方法在检测模型提取攻击时面临挑战,尤其是提取查询与良性请求相似,导致难以区分。
- 方法要点:本文提出通过将查询嵌入语义空间并进行分布测试,来监测模型提取攻击,使用最大均值差异(MMD)作为检测器。
- 实验或效果:MMD检测器在多个场景下表现出色,达到0.3%良性FPR和100%纯攻击者TPR,展示了其有效性。
📝 摘要(中文)
随着大型语言模型(LLMs)通过托管API的部署日益普及,模型提取成为了对模型所有权和服务安全的实际威胁。然而,单个提取查询往往与良性请求相似,现有评估通常集中于单查询异常评分或纯良性与攻击者用户设置。本文将模型提取监测形式化为良性校准的流量窗口分布测试,并展示了一种简单有效的检测器:将输入查询嵌入语义空间,并测试其聚合分布是否偏离历史良性流量。我们使用最大均值差异(MMD)实例化该检测器,仅通过良性与良性比较来设置决策阈值。通过在四种提取场景下评估十四对攻击者-正常查询对,并与改进的PRADA、SEAT、CAP、DATE和边际Mahalanobis基线进行比较,MMD在三个随机种子下实现了0.3%的良性假阳性率(FPR)、100.0%的纯攻击者真实阳性率(TPR)、90.5%的平均TPR和95.1%的平衡准确率。这些结果表明,良性校准的分布测试是模型提取检测的强实证基线,适用于用户级和混合多用户LLM API流量。
🔬 方法详解
问题定义:本文旨在解决大型语言模型API流量中的模型提取攻击检测问题。现有方法往往依赖单查询异常评分,难以有效区分良性与恶意请求,尤其是在攻击查询与良性请求相似的情况下。
核心思路:论文提出了一种简单的检测器,通过将输入查询嵌入到语义空间中,并测试其聚合分布是否偏离历史良性流量,从而实现模型提取监测。该方法的设计旨在利用良性流量的历史数据,以提高检测的准确性和可靠性。
技术框架:整体架构包括数据预处理、查询嵌入、分布测试和决策阈值设置几个主要模块。首先,将输入查询进行嵌入,然后通过最大均值差异(MMD)方法进行分布比较,最后根据良性与良性的比较结果设置决策阈值。
关键创新:本文的主要创新在于将模型提取监测形式化为良性校准的分布测试,并使用MMD作为检测器。这种方法与现有方法的本质区别在于,它不依赖于单一查询的异常评分,而是通过整体流量的分布特征来进行检测。
关键设计:在参数设置上,MMD检测器仅使用良性与良性比较来设定决策阈值,避免了对攻击者流量的依赖。实验中,使用了多个随机种子以确保结果的稳健性,并在不同的提取场景下进行了广泛评估。
🖼️ 关键图片
📊 实验亮点
实验结果显示,MMD检测器在检测性能上表现优异,达到0.3%的良性假阳性率和100%的纯攻击者真实阳性率,平均真实阳性率为90.5%,平衡准确率为95.1%。这些结果表明,良性校准的分布测试为模型提取检测提供了强有力的实证基线。
🎯 应用场景
该研究的潜在应用领域包括大型语言模型的API安全监测、在线服务的安全防护以及对抗性攻击检测。通过有效识别模型提取攻击,能够保护模型所有权和服务安全,提升用户信任度。未来,随着API使用的普及,该方法可能成为标准的安全防护措施。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed through hosted APIs, making model extraction a practical threat to model ownership and service security. However, individual extraction queries often resemble benign requests, and existing evaluations often focus on single-query anomaly scoring or pure benign-versus-attacker user settings. We formulate model extraction monitoring as benign-calibrated traffic-window distribution testing and show that an embarrassingly simple detector is effective: embed incoming queries into a semantic space and test whether their aggregate distribution deviates from historical benign traffic. We instantiate the detector with maximum mean discrepancy (MMD), using only benign-vs-benign comparisons to set the decision threshold. We evaluate on fourteen attacker-normal query pairs from four extraction scenarios and compare with adapted PRADA, SEAT, CAP, DATE, and marginal Mahalanobis baselines. Across three random seeds, MMD achieves 0.3% benign FPR, 100.0% pure-attacker TPR, 90.5% average TPR over attacker fractions, and 95.1% balanced accuracy. These results show that benign-calibrated distribution testing is a strong empirical baseline for model extraction detection in both user-level and mixed multi-user LLM API traffic. Code is released at: https://github.com/LabRAI/mmd-llm-mea-detection.