Model Equality Testing: Which Model Is This API Serving?

📄 arXiv: 2410.20247v2 📥 PDF

作者: Irena Gao, Percy Liang, Carlos Guestrin

分类: cs.LG

发布日期: 2024-10-26 (更新: 2025-04-08)

备注: ICLR 2025 Camera-Ready


💡 一句话要点

提出模型等价性测试,用于检测黑盒API服务模型是否被篡改。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型等价性测试 黑盒API 最大平均差异 双样本检验 语言模型 模型篡改检测 字符串内核

📋 核心要点

  1. 黑盒API提供商可能在用户不知情的情况下修改底层模型,影响输出分布,用户难以察觉。
  2. 论文提出模型等价性测试,通过统计检验API输出分布与参考分布的差异来检测模型篡改。
  3. 实验表明,基于最大平均差异的字符串内核测试,仅需少量样本即可有效检测多种模型扭曲。

📝 摘要(中文)

用户通常通过黑盒推理API与大型语言模型交互,包括闭源和开源模型(例如,Llama模型通常通过Amazon Bedrock和Azure AI Studio访问)。为了降低成本或增加功能,API提供商可能会量化、添加水印或微调底层模型,从而改变输出分布,而可能不通知用户。我们将检测此类扭曲形式化为模型等价性测试,这是一个双样本检验问题,用户从API和参考分布中收集样本,并进行统计测试以查看两个分布是否相同。我们发现,基于分布之间的最大平均差异的测试对于此任务非常有效:基于简单字符串内核构建的测试在针对一系列扭曲时,使用平均每个提示仅10个样本的情况下,实现了77.4%的中值功效。然后,我们将此测试应用于2024年夏季的商业推理API,用于四个Llama模型,发现31个端点中有11个提供的分布与Meta发布的参考权重不同。

🔬 方法详解

问题定义:论文旨在解决用户在使用黑盒API时,无法确定API背后服务模型是否与预期一致的问题。API提供商可能出于成本、性能或安全等考虑,对模型进行量化、微调、添加水印等操作,导致模型输出分布发生变化,而用户对此一无所知。现有方法缺乏有效手段来检测这种潜在的模型篡改行为。

核心思路:论文的核心思路是将模型等价性测试形式化为一个双样本检验问题。用户将API的输出分布与已知的参考模型分布进行比较,通过统计检验判断两个分布是否相同。如果两个分布存在显著差异,则表明API提供的模型可能已被修改。

技术框架:该方法主要包含以下几个步骤:1) 用户从API和参考模型中收集样本数据。2) 使用字符串内核计算API输出和参考输出之间的最大平均差异(Maximum Mean Discrepancy, MMD)。3) 使用MMD作为检验统计量,进行假设检验,判断两个分布是否相同。4) 根据检验结果,判断API提供的模型是否与参考模型等价。

关键创新:该论文的关键创新在于将模型等价性测试问题形式化为一个双样本检验问题,并提出使用基于字符串内核的MMD作为检验统计量。这种方法简单有效,能够在少量样本的情况下检测出模型分布的细微变化。

关键设计:论文的关键设计包括:1) 使用字符串内核来计算文本输出之间的相似度,能够有效捕捉语言模型的语义信息。2) 选择MMD作为检验统计量,因为它能够衡量两个分布之间的差异,且具有良好的统计性质。3) 通过实验确定合适的样本数量和显著性水平,以保证检验的功效和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于字符串内核的MMD测试在检测模型扭曲方面具有很高的功效。在针对Llama模型的商业API测试中,该方法能够以77.4%的中值功效检测出模型分布的差异,且平均每个提示仅需10个样本。实验还发现,31个API端点中有11个提供的模型分布与Meta发布的参考权重存在显著差异。

🎯 应用场景

该研究成果可应用于各种需要验证黑盒模型API服务一致性的场景,例如金融风控、医疗诊断等。用户可以使用该方法来验证API提供商是否按照合同约定提供服务,确保模型的可靠性和安全性。此外,该方法还可以用于检测模型水印攻击,保护模型的知识产权。

📄 摘要(原文)

Users often interact with large language models through black-box inference APIs, both for closed- and open-weight models (e.g., Llama models are popularly accessed via Amazon Bedrock and Azure AI Studio). In order to cut costs or add functionality, API providers may quantize, watermark, or finetune the underlying model, changing the output distribution -- possibly without notifying users. We formalize detecting such distortions as Model Equality Testing, a two-sample testing problem, where the user collects samples from the API and a reference distribution and conducts a statistical test to see if the two distributions are the same. We find that tests based on the Maximum Mean Discrepancy between distributions are powerful for this task: a test built on a simple string kernel achieves a median of 77.4% power against a range of distortions, using an average of just 10 samples per prompt. We then apply this test to commercial inference APIs from Summer 2024 for four Llama models, finding that 11 out of 31 endpoints serve different distributions than reference weights released by Meta.