IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation

📄 arXiv: 2602.22700v1 📥 PDF

作者: Yanpei Guo, Wenjie Qu, Linyu Wu, Shengfang Zhai, Lionel Z. Wang, Ming Xu, Yue Liu, Binhang Yuan, Dawn Song, Jiaheng Zhang

分类: cs.CR, cs.AI

发布日期: 2026-02-26

🔗 代码/项目: GITHUB


💡 一句话要点

IMMACULATE:一种通过可验证计算实现LLM审计的实用框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可验证计算 模型审计 黑盒服务 安全 隐私保护 抽样审计

📋 核心要点

  1. 现有黑盒LLM服务缺乏透明度,用户难以验证服务提供商是否诚实执行推理,存在模型替换、量化滥用等风险。
  2. IMMACULATE通过可验证计算,对少量请求进行审计,无需信任硬件或访问模型内部,即可检测经济动机的偏差行为。
  3. 实验表明,IMMACULATE能够可靠区分良性和恶意执行,且吞吐量开销低于1%,具有很强的实用性。

📝 摘要(中文)

商业大型语言模型通常以黑盒API服务的形式部署,这要求用户信任提供商能够正确执行推理并诚实报告token使用情况。我们提出了IMMACULATE,一个实用的审计框架,用于检测经济动机的偏差,例如模型替换、量化滥用和token过度收费,而无需可信硬件或访问模型内部结构。IMMACULATE使用可验证计算选择性地审计一小部分请求,在分摊密码学开销的同时实现强大的检测保证。对密集模型和MoE模型的实验表明,IMMACULATE能够可靠地区分良性和恶意执行,吞吐量开销低于1%。我们的代码已发布在https://github.com/guo-yanpei/Immaculate。

🔬 方法详解

问题定义:论文旨在解决商业LLM服务中用户无法验证服务提供商是否诚实执行推理的问题。现有方法要么需要可信硬件,成本高昂,要么需要访问模型内部结构,侵犯了模型所有者的知识产权。因此,如何在不依赖可信硬件和访问模型内部结构的前提下,对LLM服务进行有效审计,是一个亟待解决的问题。

核心思路:IMMACULATE的核心思路是利用可验证计算(Verifiable Computation, VC)对LLM推理过程进行抽样审计。通过对少量请求进行VC验证,可以以较低的开销检测服务提供商的恶意行为,例如模型替换、量化滥用和token过度收费。这种抽样审计的方式,可以在保证检测效果的同时,显著降低VC带来的计算开销。

技术框架:IMMACULATE框架主要包含以下几个模块:1) 请求选择器:根据一定的策略选择需要进行审计的请求。2) 可验证计算模块:使用VC技术对选定的请求进行推理验证,生成计算证明。3) 验证模块:验证计算证明的正确性,从而判断服务提供商是否诚实执行推理。4) 偏差检测模块:根据验证结果,检测服务提供商是否存在恶意行为。整体流程是用户发送请求,框架选择部分请求进行VC验证,验证结果用于检测偏差。

关键创新:IMMACULATE的关键创新在于将可验证计算应用于LLM审计,并设计了一种实用的抽样审计策略。与现有方法相比,IMMACULATE无需可信硬件或访问模型内部结构,即可实现对LLM服务的有效审计。此外,IMMACULATE的抽样审计策略可以在保证检测效果的同时,显著降低VC带来的计算开销,使其具有很强的实用性。

关键设计:IMMACULATE的关键设计包括:1) 请求选择策略:论文可能采用随机抽样或基于特定特征的抽样策略,以保证审计的有效性。2) 可验证计算方案:选择合适的VC方案,例如基于多项式承诺的方案,以实现高效的推理验证。3) 偏差检测规则:设计合理的偏差检测规则,例如基于输出分布的差异检测模型替换,基于计算复杂度的差异检测量化滥用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IMMACULATE能够可靠地区分良性和恶意执行,且吞吐量开销低于1%。具体来说,IMMACULATE在检测模型替换、量化滥用和token过度收费等恶意行为方面表现出色,误报率和漏报率均较低。此外,实验还验证了IMMACULATE的抽样审计策略的有效性,证明其可以在保证检测效果的同时,显著降低VC带来的计算开销。

🎯 应用场景

IMMACULATE可应用于各种商业LLM服务场景,例如文本生成、机器翻译、代码生成等。它可以帮助用户验证服务提供商是否诚实执行推理,保障服务质量和用户权益。该研究有助于建立更加透明和可信的LLM服务生态,促进LLM技术的健康发展。未来,该框架可以扩展到其他类型的AI服务审计,具有广阔的应用前景。

📄 摘要(原文)

Commercial large language models are typically deployed as black-box API services, requiring users to trust providers to execute inference correctly and report token usage honestly. We present IMMACULATE, a practical auditing framework that detects economically motivated deviations-such as model substitution, quantization abuse, and token overbilling-without trusted hardware or access to model internals. IMMACULATE selectively audits a small fraction of requests using verifiable computation, achieving strong detection guarantees while amortizing cryptographic overhead. Experiments on dense and MoE models show that IMMACULATE reliably distinguishes benign and malicious executions with under 1% throughput overhead. Our code is published at https://github.com/guo-yanpei/Immaculate.