SVIP: Towards Verifiable Inference of Open-source Large Language Models

📄 arXiv: 2410.22307v2 📥 PDF

作者: Yifan Sun, Yuhang Li, Yue Zhang, Yuchen Jin, Huan Zhang

分类: cs.LG, cs.AI, cs.CL, cs.CR

发布日期: 2024-10-29 (更新: 2025-05-29)

备注: 22 pages


💡 一句话要点

SVIP:面向开源大语言模型的可验证推理方案,保障用户权益。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可验证推理 去中心化计算 模型安全 隐藏层表示

📋 核心要点

  1. 现有去中心化LLM推理服务存在安全隐患,服务商可能用小模型冒充大模型以节省成本,损害用户权益。
  2. SVIP协议通过要求服务商返回LLM的隐藏层表示,并训练代理任务来验证模型身份,确保推理过程的真实性。
  3. 实验表明,SVIP在保证低误判率的同时,具有高效的计算性能,能够有效抵抗多种攻击手段。

📝 摘要(中文)

开源大语言模型(LLM)的规模日益增长,使得本地部署对个人用户而言不切实际。去中心化计算作为一种经济高效的解决方案应运而生,它允许个人和小公司利用剩余算力为用户执行LLM推理。然而,计算提供商可能会在未经用户同意的情况下,偷偷地用较小、能力较弱的模型替换用户请求的LLM,从而节省成本。我们提出了SVIP,一种基于秘密的可验证LLM推理协议。与基于密码学或博弈论技术的现有解决方案不同,我们的方法在计算上是有效的,并且不依赖于强假设。我们的协议要求计算提供商返回生成的文本和来自LLM的处理后的隐藏层表示。然后,我们在这些表示上训练一个代理任务,有效地将它们转换为唯一的模型标识符。通过我们的协议,用户可以可靠地验证计算提供商是否诚实地执行推理。一个精心集成的秘密机制进一步加强了其安全性。我们彻底分析了我们的协议在多个强大和自适应对抗场景下的表现。我们广泛的实验表明,SVIP是准确的、可推广的、计算高效的,并且能够抵抗各种攻击。值得注意的是,SVIP实现了低于5%的假阴性率和低于3%的假阳性率,同时每次提示查询的验证时间少于0.01秒。

🔬 方法详解

问题定义:论文旨在解决去中心化LLM推理服务中,计算提供商可能使用较小模型冒充较大模型,从而欺骗用户并节省计算成本的问题。现有方法,如基于密码学或博弈论的方案,通常计算开销大或依赖于较强的假设,难以实际应用。

核心思路:论文的核心思路是利用LLM的中间层表示(隐藏层输出)作为模型的唯一标识。通过在这些隐藏层表示上训练一个代理任务,可以将这些表示转化为可验证的“指纹”。用户可以通过验证返回的隐藏层表示是否与声称的模型一致,来判断计算提供商是否诚实。

技术框架:SVIP协议的主要流程如下:1) 用户向计算提供商发送请求,指定要使用的LLM;2) 计算提供商使用LLM生成文本,并返回生成的文本以及LLM处理过程中的隐藏层表示;3) 用户使用预先训练好的代理模型,在接收到的隐藏层表示上执行代理任务;4) 用户根据代理任务的输出结果,判断计算提供商是否使用了正确的LLM。

关键创新:SVIP的关键创新在于利用LLM的隐藏层表示作为模型标识符,并设计了一个轻量级的代理任务来进行验证。这种方法避免了复杂的密码学计算,并且不需要对LLM的内部结构进行修改。此外,论文还引入了一个秘密机制,进一步增强了协议的安全性,防止攻击者通过分析隐藏层表示来伪造模型身份。

关键设计:代理任务的具体形式未知,但其目标是能够区分不同的LLM。论文强调了秘密机制的重要性,具体实现细节未知。损失函数的设计目标是使代理任务能够准确地识别LLM,同时对噪声和对抗性攻击具有鲁棒性。网络结构的选择需要兼顾计算效率和识别准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SVIP协议能够以高精度验证LLM推理的真实性,假阴性率低于5%,假阳性率低于3%。同时,SVIP的计算开销非常小,每次查询的验证时间少于0.01秒。该方案在多种对抗攻击场景下表现出良好的鲁棒性,证明了其在实际应用中的可行性。

🎯 应用场景

SVIP协议可应用于各种去中心化LLM推理服务平台,保障用户在使用开源LLM时的权益。该方案能够有效防止服务提供商作弊,提高用户对LLM推理结果的信任度,促进开源LLM生态的健康发展。未来,该技术还可扩展到其他类型的AI模型,实现更广泛的可验证计算。

📄 摘要(原文)

The ever-increasing size of open-source Large Language Models (LLMs) renders local deployment impractical for individual users. Decentralized computing has emerged as a cost-effective solution, allowing individuals and small companies to perform LLM inference for users using surplus computational power. However, a computing provider may stealthily substitute the requested LLM with a smaller, less capable model without consent from users, thereby benefiting from cost savings. We introduce SVIP, a secret-based verifiable LLM inference protocol. Unlike existing solutions based on cryptographic or game-theoretic techniques, our method is computationally effective and does not rest on strong assumptions. Our protocol requires the computing provider to return both the generated text and processed hidden representations from LLMs. We then train a proxy task on these representations, effectively transforming them into a unique model identifier. With our protocol, users can reliably verify whether the computing provider is acting honestly. A carefully integrated secret mechanism further strengthens its security. We thoroughly analyze our protocol under multiple strong and adaptive adversarial scenarios. Our extensive experiments demonstrate that SVIP is accurate, generalizable, computationally efficient, and resistant to various attacks. Notably, SVIP achieves false negative rates below 5% and false positive rates below 3%, while requiring less than 0.01 seconds per prompt query for verification.