Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments

📄 arXiv: 2602.19450v1 📥 PDF

作者: Kunal Mukherjee

分类: cs.CR, cs.AI

发布日期: 2026-02-23


💡 一句话要点

针对TEE安全,提出TEE-RedBench评估方法,用于评估LLM安全顾问的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可信执行环境 大型语言模型 安全评估 红队测试 威胁建模 安全顾问 对抗性攻击

📋 核心要点

  1. 现有TEE部署面临微架构泄露等安全挑战,安全团队依赖LLM进行安全建议,但LLM可能产生幻觉或不安全行为。
  2. 论文提出TEE-RedBench评估方法,包含TEE特定威胁模型、结构化提示套件和注释规则,用于评估LLM作为TEE安全顾问的可靠性。
  3. 实验表明,LLM的某些安全故障具有传递性,且提出的“LLM-in-the-loop”评估管道可有效降低LLM的安全风险。

📝 摘要(中文)

可信执行环境(TEE),如Intel SGX和Arm TrustZone,旨在保护敏感计算免受被入侵操作系统的攻击。然而,实际部署仍然容易受到微架构泄露、侧信道攻击和故障注入的影响。与此同时,安全团队越来越依赖大型语言模型(LLM)助手作为TEE架构审查、缓解计划和漏洞分类的安全顾问。这带来了一种社会技术风险:助手可能会虚构TEE机制,过度声明保证(例如,证明所建立的内容),或者在对抗性提示下表现不安全。本文对两种广泛部署的LLM助手(ChatGPT-5.2和Claude Opus-4.6)作为TEE安全顾问的角色进行了红队研究,重点关注提示诱导的故障的固有局限性和跨LLM的传递性。我们引入了TEE-RedBench,一种基于TEE的评估方法,包括(i) LLM介导的安全工作的TEE特定威胁模型,(ii) 一个结构化的提示套件,涵盖SGX和TrustZone架构、证明和密钥管理、威胁建模和非操作缓解指导,以及策略约束的滥用探测,以及(iii) 一个注释规则,共同衡量技术正确性、基础性、不确定性校准、拒绝质量和安全帮助性。我们发现一些失败并非完全特殊,在LLM助手之间传递高达12.02%,并通过概述“LLM-in-the-loop”评估管道将这些结果与安全架构联系起来:策略门控、检索基础、结构化模板和轻量级验证检查,当结合使用时,可将失败减少80.62%。

🔬 方法详解

问题定义:论文旨在解决LLM作为TEE安全顾问时可能出现的安全问题,例如幻觉、过度声明保证和不安全行为。现有方法缺乏针对LLM在TEE安全领域应用的系统性评估和红队测试,无法有效识别和缓解LLM带来的安全风险。

核心思路:论文的核心思路是构建一个TEE-grounded的评估框架,通过模拟对抗性攻击,系统性地评估LLM在TEE安全相关任务中的表现。通过分析LLM的错误类型和传递性,为开发更安全的LLM应用提供指导。

技术框架:TEE-RedBench评估框架包含三个主要组成部分:(1) TEE特定威胁模型,用于定义LLM介导的安全工作的潜在威胁;(2) 结构化提示套件,涵盖SGX和TrustZone架构、证明和密钥管理、威胁建模和非操作缓解指导,以及策略约束的滥用探测;(3) 注释规则,用于衡量技术正确性、基础性、不确定性校准、拒绝质量和安全帮助性。

关键创新:论文的关键创新在于提出了TEE-RedBench,这是一个专门针对LLM在TEE安全领域应用的评估方法。该方法不仅关注LLM的正确性,还关注其安全性和可靠性,并提供了一种“LLM-in-the-loop”的评估管道,用于降低LLM的安全风险。

关键设计:结构化提示套件的设计是关键。它涵盖了TEE安全领域的多个方面,并包含策略约束的滥用探测,以测试LLM在对抗性条件下的表现。注释规则的设计也至关重要,它综合考虑了技术正确性、基础性、不确定性校准、拒绝质量和安全帮助性等多个维度,从而全面评估LLM的性能。

📊 实验亮点

实验结果表明,LLM的某些安全故障具有传递性,在不同的LLM助手之间传递高达12.02%。通过提出的“LLM-in-the-loop”评估管道,可以将LLM的失败率降低80.62%,显著提高了LLM在TEE安全领域的可靠性。

🎯 应用场景

该研究成果可应用于评估和改进LLM在安全领域的应用,特别是在可信计算、云计算和物联网等领域。通过TEE-RedBench,可以识别LLM的安全漏洞,并开发更安全的LLM应用,从而提高系统的整体安全性。

📄 摘要(原文)

Trusted Execution Environments (TEEs) (e.g., Intel SGX and ArmTrustZone) aim to protect sensitive computation from a compromised operating system, yet real deployments remain vulnerable to microarchitectural leakage, side-channel attacks, and fault injection. In parallel, security teams increasingly rely on Large Language Model (LLM) assistants as security advisors for TEE architecture review, mitigation planning, and vulnerability triage. This creates a socio-technical risk surface: assistants may hallucinate TEE mechanisms, overclaim guarantees (e.g., what attestation does and does not establish), or behave unsafely under adversarial prompting. We present a red-teaming study of two prevalently deployed LLM assistants in the role of TEE security advisors: ChatGPT-5.2 and Claude Opus-4.6, focusing on the inherent limitations and transferability of prompt-induced failures across LLMs. We introduce TEE-RedBench, a TEE-grounded evaluation methodology comprising (i) a TEE-specific threat model for LLM-mediated security work, (ii) a structured prompt suite spanning SGX and TrustZone architecture, attestation and key management, threat modeling, and non-operational mitigation guidance, along with policy-bound misuse probes, and (iii) an annotation rubric that jointly measures technical correctness, groundedness, uncertainty calibration, refusal quality, and safe helpfulness. We find that some failures are not purely idiosyncratic, transferring up to 12.02% across LLM assistants, and we connect these outcomes to secure architecture by outlining an "LLM-in-the-loop" evaluation pipeline: policy gating, retrieval grounding, structured templates, and lightweight verification checks that, when combined, reduce failures by 80.62%.