Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability

📄 arXiv: 2509.11068v1 📥 PDF

作者: Zan-Kai Chong, Hiroyuki Ohsaki, Bryan Ng

分类: cs.AI

发布日期: 2025-09-14


💡 一句话要点

提出基于确定性可复制性的LLM非对称验证框架,降低验证成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可信AI 非对称验证 确定性可复制性 多智能体系统

📋 核心要点

  1. 现有LLM多智能体系统缺乏有效的验证机制,难以保证输出结果的真实性和可靠性。
  2. 该论文提出基于确定性可复制性的非对称验证框架,通过审计LLM输出片段降低验证成本。
  3. 实验表明,该方法比完全重新生成快12倍以上,并可通过参数调整检测概率。

📝 摘要(中文)

大型语言模型(LLM)正迅速发展为动态的多智能体系统。这带来了一个根本性的挑战,即如何建立计算信任,特别是如何验证一个智能体的输出是否确实由其声称的LLM生成,而不是伪造的或由更廉价的模型生成。为了解决这个问题,本文提出了一个验证框架,该框架实现了可处理的非对称努力,即验证计算的成本远低于执行计算的成本。我们的方法建立在确定性可复制性的原则之上,这是自回归模型固有的属性,严格要求计算同构环境,其中所有智能体在相同的硬件和软件堆栈上运行。在此定义的上下文中,我们的框架允许多个验证者概率性地审计LLM输出的小型随机片段,并有效地分配验证工作负载。模拟表明,有针对性的验证比完全重新生成快12倍以上,并且具有可调参数来调整检测概率。通过为可审计的LLM系统建立可处理的机制,我们的工作为负责任的AI提供了基础层,并为未来对更复杂、异构的多智能体系统的研究奠定了基石。

🔬 方法详解

问题定义:在多智能体系统中,如何验证一个LLM的输出是否真的来自它声称的模型,而不是被篡改或者由更弱的模型生成?现有的方法通常需要完全重新生成输出进行对比,计算成本高昂,尤其是在大型LLM上。

核心思路:利用自回归模型的确定性可复制性。如果所有智能体运行在完全相同的硬件和软件环境下,那么给定相同的输入,自回归模型应该产生完全相同的输出。因此,可以通过随机抽样LLM输出的片段进行验证,而无需重新生成整个输出。

技术框架:该框架包含一个LLM智能体,多个验证者,以及一个可信的计算环境。LLM智能体生成输出,验证者随机选择输出片段进行验证。验证者需要访问相同的LLM模型和运行环境。验证过程包括:1) LLM智能体生成输出;2) 验证者随机选择输出片段;3) 验证者使用相同的模型和输入重新生成选定的片段;4) 验证者比较生成的片段与原始输出片段,如果一致,则验证通过。

关键创新:提出了基于确定性可复制性的非对称验证方法,将验证成本从与生成成本相当降低到远低于生成成本。通过随机抽样验证,实现了验证成本和验证概率之间的权衡。

关键设计:关键参数包括抽样片段的大小、抽样频率等。抽样片段的大小决定了验证的粒度,抽样频率决定了验证的概率。需要根据实际应用场景和安全需求调整这些参数,以达到最佳的验证效果。论文中没有明确提及损失函数或网络结构,因为核心在于验证框架而非模型本身。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在保证一定检测概率的前提下,验证速度比完全重新生成快12倍以上。通过调整抽样片段的大小和频率,可以灵活地控制验证成本和检测概率,满足不同应用场景的需求。

🎯 应用场景

该研究成果可应用于构建可信赖的LLM多智能体系统,例如在金融、医疗等对安全性要求高的领域,可以验证LLM生成的报告或建议的真实性。此外,该方法还可以用于检测恶意软件或欺诈行为,提高AI系统的安全性。

📄 摘要(原文)

The landscape of Large Language Models (LLMs) shifts rapidly towards dynamic, multi-agent systems. This introduces a fundamental challenge in establishing computational trust, specifically how one agent can verify that another's output was genuinely produced by a claimed LLM, and not falsified or generated by a cheaper or inferior model. To address this challenge, this paper proposes a verification framework that achieves tractable asymmetric effort, where the cost to verify a computation is substantially lower than the cost to perform it. Our approach is built upon the principle of deterministic replicability, a property inherent to autoregressive models that strictly necessitates a computationally homogeneous environment where all agents operate on identical hardware and software stacks. Within this defined context, our framework enables multiple validators to probabilistically audit small, random segments of an LLM's output and it distributes the verification workload effectively. The simulations demonstrated that targeted verification can be over 12 times faster than full regeneration, with tunable parameters to adjust the detection probability. By establishing a tractable mechanism for auditable LLM systems, our work offers a foundational layer for responsible AI and serves as a cornerstone for future research into the more complex, heterogeneous multi-agent systems.