Making AI-Assisted Grant Evaluation Auditable without Exposing the Model
作者: Kemal Bicakci
分类: cs.CR, cs.AI, cs.CY, cs.LG
发布日期: 2026-04-28
备注: 12 pages, 2 figures
💡 一句话要点
提出基于TEE的架构,在不暴露模型的前提下,实现AI辅助资助评估的可审计性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可信执行环境 远程证明 AI辅助评估 模型安全 算法审计
📋 核心要点
- 现有AI辅助资助评估面临模型易被攻击和评估过程缺乏透明度的挑战。
- 论文提出基于TEE的架构,通过远程证明确保评估过程可审计,同时保护模型和评分逻辑。
- 该架构生成可验证的评估包,记录关键信息,并包含规范化层以应对提示注入攻击。
📝 摘要(中文)
公共机构开始考虑使用大型语言模型(LLM)作为资助评估的决策支持工具。这带来了一个实际的管理问题:模型和评分标准不应以允许申请人针对它们进行优化的方式公开,但评估过程必须保持可审计、可质疑和可问责。我们提出了一种基于可信执行环境(TEE)的架构,通过远程证明来帮助协调这些需求。该架构允许外部验证者检查使用了哪个模型、评分标准、提示模板和输入表示,而无需向申请人或基础设施运营商公开模型权重、专有评分逻辑或中间推理过程。主要成果是一个经过证明的评估包:一个签名的时间戳记录,链接原始提交哈希、规范输入哈希、模型和评分标准的测量以及评估输出。本文还考虑了一种特定场景的提示注入风险:申请人控制的文档可能包含旨在影响LLM评估器的隐藏或间接指令。因此,我们包括一个规范化和清理层,该层在推理之前对文档表示进行规范化并记录可疑的转换。我们将该设计定位于保密AI推理、可证明的AI审计、零知识机器学习、算法问责制和AI辅助同行评审。最终的声明是经过慎重考虑的:远程证明不能证明评估是公平或科学正确的,但它可以使部分评估过程在外部可验证。
🔬 方法详解
问题定义:论文旨在解决AI辅助资助评估中模型安全和过程透明度之间的矛盾。现有方法要么暴露模型,导致申请人可以针对模型进行优化;要么不公开评估细节,导致过程不可审计,难以保证公平性和问责性。
核心思路:核心思路是利用可信执行环境(TEE)提供一个安全可信的计算环境,在这个环境中运行LLM评估模型。通过远程证明机制,外部验证者可以验证TEE中运行的模型、评分标准和输入数据,而无需访问敏感的模型权重和评分逻辑。这样既保证了评估过程的可审计性,又保护了模型的知识产权。
技术框架:整体架构包含以下几个主要模块:1) 提交文档的规范化和清理层,用于处理潜在的提示注入攻击;2) 在TEE中运行的LLM评估模型,该模型使用规范化的文档和预定义的评分标准进行评估;3) 远程证明模块,用于生成证明报告,验证TEE环境的完整性;4) 评估包生成模块,用于将原始提交哈希、规范输入哈希、模型测量和评估输出打包成一个签名的时间戳记录。
关键创新:关键创新在于将TEE和远程证明技术应用于AI辅助资助评估,实现了一种在保护模型隐私的同时保证评估过程可审计性的方案。此外,规范化和清理层也有效地降低了提示注入攻击的风险。
关键设计:规范化和清理层使用了一系列规则和算法来标准化文档格式,移除潜在的恶意代码和隐藏指令。远程证明过程依赖于TEE提供的硬件安全特性,例如安全启动和内存加密。评估包使用数字签名技术来保证其完整性和不可篡改性。
📊 实验亮点
论文的主要贡献在于提出了一个完整的基于TEE的AI辅助资助评估架构,并详细描述了各个模块的设计和实现。虽然论文没有提供具体的性能数据,但通过引入规范化和清理层,有效地降低了提示注入攻击的风险,提高了评估的安全性。该架构为构建可信赖的AI系统提供了一个有价值的参考。
🎯 应用场景
该研究成果可应用于各种需要AI辅助决策且对公平性和透明度有较高要求的场景,例如政府资助审批、学术论文评审、贷款风险评估等。通过提供可审计的评估过程,增强了决策的可信度,并有助于建立公众对AI系统的信任。未来,该技术可以扩展到更复杂的AI模型和评估流程,实现更广泛的应用。
📄 摘要(原文)
Public agencies are beginning to consider large language models (LLMs) as decision-support tools for grant evaluation. This creates a practical governance problem: the model and scoring rubric should not be exposed in a way that allows applicants to optimize against them, yet the evaluation process must remain auditable, contestable, and accountable. We propose a TEE-based architecture that helps reconcile these requirements through remote attestation. The architecture allows an external verifier to check which model, rubric, prompt template, and input representation were used, without exposing model weights, proprietary scoring logic, or intermediate reasoning to applicants or infrastructure operators. The main artifact is an attested evaluation bundle: a signed, timestamped record linking the original submission hash, the canonical input hash, the model-and-rubric measurement, and the evaluation output. The paper also considers a scenario-specific prompt injection risk: applicant-controlled documents may contain hidden or indirect instructions intended to influence the LLM evaluator. We therefore include a canonicalization and sanitization layer that normalizes document representations and records suspicious transformations before inference. We position the design relative to confidential AI inference, attestable AI audits, zero-knowledge machine learning, algorithmic accountability, and AI-assisted peer review. The resulting claim is deliberately narrow: remote attestation does not prove that an evaluation is fair or scientifically correct, but it can make part of the evaluation process externally verifiable.