IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation

📄 arXiv: 2602.22700 📥 PDF

作者: Yanpei Guo, Wenjie Qu, Linyu Wu, Shengfang Zhai, Lionel Z. Wang, Ming Xu, Yue Liu, Binhang Yuan, Dawn Song, Jiaheng Zhang

分类: cs.CR, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出IMMACULATE框架以解决LLM审计问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 审计框架 可验证计算 模型偏差检测 经济动机

📋 核心要点

  1. 现有大型语言模型的黑箱特性使得用户无法验证推理的正确性,存在信任风险。
  2. IMMACULATE框架通过可验证计算技术,选择性审计请求,能够有效检测模型的经济动机偏差。
  3. 实验结果显示,IMMACULATE在检测准确性上表现优异,且吞吐量开销低于1%,具有良好的实用性。

📝 摘要(中文)

商业大型语言模型通常作为黑箱API服务部署,用户需信任提供者正确执行推理并诚实报告令牌使用情况。本文提出IMMACULATE,一个实用的审计框架,能够在没有可信硬件或模型内部访问权限的情况下,检测经济动机引发的偏差,如模型替换、量化滥用和令牌过度收费。IMMACULATE通过可验证计算选择性审计少量请求,实现强检测保证,同时摊销加密开销。实验表明,IMMACULATE能够在不到1%的吞吐量开销下,可靠地区分良性和恶意执行。代码已在指定网址发布。

🔬 方法详解

问题定义:本文旨在解决商业大型语言模型作为黑箱服务所带来的信任问题,现有方法缺乏有效的审计机制,用户无法验证模型的推理结果和令牌使用情况。

核心思路:IMMACULATE框架的核心思想是利用可验证计算技术,选择性地对部分请求进行审计,从而在不需要可信硬件或模型内部信息的情况下,检测经济动机引发的偏差。

技术框架:IMMACULATE的整体架构包括请求选择、可验证计算和结果验证三个主要模块。首先,系统根据一定策略选择需要审计的请求;然后,利用可验证计算对这些请求进行处理;最后,验证结果以判断执行的良性或恶意。

关键创新:IMMACULATE的主要创新在于其能够在不依赖于可信硬件的情况下,通过选择性审计实现强检测保证,这与现有方法的依赖性形成鲜明对比。

关键设计:在设计上,IMMACULATE采用了高效的加密算法以降低计算开销,并通过优化请求选择策略来提高审计的有效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IMMACULATE在检测良性与恶意执行方面表现出色,准确率高,且吞吐量开销低于1%。与基线方法相比,IMMACULATE在经济动机偏差检测上具有显著的性能提升,展示了其在实际应用中的有效性。

🎯 应用场景

IMMACULATE框架具有广泛的应用潜力,尤其在商业环境中,能够帮助用户验证大型语言模型的推理结果和令牌使用情况,降低信任风险。此外,该框架也可用于其他需要审计和验证的AI服务,提升其透明度和可靠性。

📄 摘要(原文)

Commercial large language models are typically deployed as black-box API services, requiring users to trust providers to execute inference correctly and report token usage honestly. We present IMMACULATE, a practical auditing framework that detects economically motivated deviations-such as model substitution, quantization abuse, and token overbilling-without trusted hardware or access to model internals. IMMACULATE selectively audits a small fraction of requests using verifiable computation, achieving strong detection guarantees while amortizing cryptographic overhead. Experiments on dense and MoE models show that IMMACULATE reliably distinguishes benign and malicious executions with under 1% throughput overhead. Our code is published atthis https URL.