An Embarrassingly Simple Detector for Model Extraction Attacks in Large Language Model API Traffic

作者: Shuze Liu, Qianwen Guo, Yushun Dong

分类: cs.CR, cs.CL

发布日期: 2026-06-04

备注: Preprint. Code available at https://github.com/LabRAI/mmd-llm-mea-detection

🔗 代码/项目: GITHUB

💡 一句话要点

提出一种简单有效的检测器以应对大语言模型API的模型提取攻击

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 模型提取 大语言模型 API安全 异常检测 最大均值差异 流量监测 机器学习

📋 核心要点

核心问题：现有方法在检测模型提取攻击时面临挑战，尤其是提取查询与良性请求相似，导致难以区分。
方法要点：本文提出通过将查询嵌入语义空间并进行分布测试，来监测模型提取攻击，使用最大均值差异（MMD）作为检测器。
实验或效果：MMD检测器在多个场景下表现出色，达到0.3%良性FPR和100%纯攻击者TPR，展示了其有效性。

📝 摘要（中文）

随着大型语言模型（LLMs）通过托管API的部署日益普及，模型提取成为了对模型所有权和服务安全的实际威胁。然而，单个提取查询往往与良性请求相似，现有评估通常集中于单查询异常评分或纯良性与攻击者用户设置。本文将模型提取监测形式化为良性校准的流量窗口分布测试，并展示了一种简单有效的检测器：将输入查询嵌入语义空间，并测试其聚合分布是否偏离历史良性流量。我们使用最大均值差异（MMD）实例化该检测器，仅通过良性与良性比较来设置决策阈值。通过在四种提取场景下评估十四对攻击者-正常查询对，并与改进的PRADA、SEAT、CAP、DATE和边际Mahalanobis基线进行比较，MMD在三个随机种子下实现了0.3%的良性假阳性率（FPR）、100.0%的纯攻击者真实阳性率（TPR）、90.5%的平均TPR和95.1%的平衡准确率。这些结果表明，良性校准的分布测试是模型提取检测的强实证基线，适用于用户级和混合多用户LLM API流量。

🔬 方法详解

问题定义：本文旨在解决大型语言模型API流量中的模型提取攻击检测问题。现有方法往往依赖单查询异常评分，难以有效区分良性与恶意请求，尤其是在攻击查询与良性请求相似的情况下。

核心思路：论文提出了一种简单的检测器，通过将输入查询嵌入到语义空间中，并测试其聚合分布是否偏离历史良性流量，从而实现模型提取监测。该方法的设计旨在利用良性流量的历史数据，以提高检测的准确性和可靠性。

技术框架：整体架构包括数据预处理、查询嵌入、分布测试和决策阈值设置几个主要模块。首先，将输入查询进行嵌入，然后通过最大均值差异（MMD）方法进行分布比较，最后根据良性与良性的比较结果设置决策阈值。

关键创新：本文的主要创新在于将模型提取监测形式化为良性校准的分布测试，并使用MMD作为检测器。这种方法与现有方法的本质区别在于，它不依赖于单一查询的异常评分，而是通过整体流量的分布特征来进行检测。

关键设计：在参数设置上，MMD检测器仅使用良性与良性比较来设定决策阈值，避免了对攻击者流量的依赖。实验中，使用了多个随机种子以确保结果的稳健性，并在不同的提取场景下进行了广泛评估。

🖼️ 关键图片

📊 实验亮点

实验结果显示，MMD检测器在检测性能上表现优异，达到0.3%的良性假阳性率和100%的纯攻击者真实阳性率，平均真实阳性率为90.5%，平衡准确率为95.1%。这些结果表明，良性校准的分布测试为模型提取检测提供了强有力的实证基线。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的API安全监测、在线服务的安全防护以及对抗性攻击检测。通过有效识别模型提取攻击，能够保护模型所有权和服务安全，提升用户信任度。未来，随着API使用的普及，该方法可能成为标准的安全防护措施。

📄 摘要（原文）

Large language models (LLMs) are increasingly deployed through hosted APIs, making model extraction a practical threat to model ownership and service security. However, individual extraction queries often resemble benign requests, and existing evaluations often focus on single-query anomaly scoring or pure benign-versus-attacker user settings. We formulate model extraction monitoring as benign-calibrated traffic-window distribution testing and show that an embarrassingly simple detector is effective: embed incoming queries into a semantic space and test whether their aggregate distribution deviates from historical benign traffic. We instantiate the detector with maximum mean discrepancy (MMD), using only benign-vs-benign comparisons to set the decision threshold. We evaluate on fourteen attacker-normal query pairs from four extraction scenarios and compare with adapted PRADA, SEAT, CAP, DATE, and marginal Mahalanobis baselines. Across three random seeds, MMD achieves 0.3% benign FPR, 100.0% pure-attacker TPR, 90.5% average TPR over attacker fractions, and 95.1% balanced accuracy. These results show that benign-calibrated distribution testing is a strong empirical baseline for model extraction detection in both user-level and mixed multi-user LLM API traffic. Code is released at: https://github.com/LabRAI/mmd-llm-mea-detection.

An Embarrassingly Simple Detector for Model Extraction Attacks in Large Language Model API Traffic

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理