Chain-of-Authorization: Internalizing Authorization into Large Language Models via Reasoning Trajectories
作者: Yang Li, Yule Liu, Xinlei He, Youjian Zhao, Qi Li, Ke Xu
分类: cs.AI
发布日期: 2026-03-24
备注: 29 pages, 9 figures
💡 一句话要点
提出Chain-of-Authorization框架,通过推理轨迹将授权机制内化于大语言模型中
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 授权机制 安全 推理轨迹 动态授权
📋 核心要点
- 现有LLM缺乏对数据所有权和访问权限的内在感知,易受攻击,存在数据泄露和未授权访问的风险。
- Chain-of-Authorization框架通过在输入中嵌入权限上下文,并要求模型生成显式的授权推理轨迹,从而将授权逻辑内化。
- 实验表明,CoA在授权场景中保持效用,克服权限不匹配时的认知混淆,并有效拒绝未授权访问。
📝 摘要(中文)
大型语言模型(LLMs)已成为现代人工智能(AI)系统的核心认知组件,它们结合内部知识和外部上下文来执行复杂任务。然而,LLMs通常无差别地处理所有可访问的数据,缺乏对知识所有权和访问边界的内在感知。这种缺陷增加了敏感数据泄露和对抗性操纵的风险,可能导致未经授权的系统访问和严重的安全危机。现有的保护策略依赖于僵化的、统一的防御,阻止了动态授权。结构隔离方法面临可扩展性瓶颈,而提示引导方法难以区分细粒度的权限。本文提出了Chain-of-Authorization (CoA)框架,这是一种安全的训练和推理范式,将授权逻辑内化到LLMs的核心能力中。与被动的外部防御不同,CoA重构了模型的信息流:它在输入时嵌入权限上下文,并要求生成显式的授权推理轨迹,包括资源审查、身份解析和决策阶段,然后才能做出最终响应。通过对涵盖各种授权状态的数据进行监督微调,CoA将策略执行与任务响应集成在一起,使授权成为实质性响应的因果前提。广泛的评估表明,CoA不仅在授权场景中保持了相当的效用,而且克服了权限不匹配时的认知混淆。它对各种未经授权和对抗性访问表现出很高的拒绝率。这种机制利用LLMs的推理能力来执行动态授权,使用自然语言理解作为一种主动安全机制,用于在现代AI系统中部署可靠的LLMs。
🔬 方法详解
问题定义:现有的大语言模型在处理信息时,通常忽略了数据的所有权和访问权限,导致潜在的安全风险,例如敏感数据泄露和未经授权的访问。现有的防御方法,如结构隔离和提示引导,要么缺乏动态授权的能力,要么难以处理细粒度的权限区分。因此,如何让LLM具备内在的授权意识,并能根据权限动态地控制信息的访问和使用,是一个亟待解决的问题。
核心思路:Chain-of-Authorization (CoA) 的核心思路是将授权逻辑融入到LLM的推理过程中,使其在生成最终响应之前,必须先进行资源审查、身份解析和决策等授权相关的推理步骤。通过这种方式,授权不再是一个被动的外部防御,而是成为模型生成响应的必要前提。这种设计使得模型能够根据不同的权限上下文,动态地调整其行为,从而提高安全性和可靠性。
技术框架:CoA框架主要包含以下几个阶段:1) 权限上下文嵌入:在输入LLM时,同时提供与请求相关的权限信息,例如用户身份、请求资源以及相应的访问权限。2) 授权推理轨迹生成:LLM需要生成一个显式的推理轨迹,该轨迹包含资源审查、身份解析和决策等步骤。在这个过程中,模型需要根据权限上下文,判断用户是否具有访问请求资源的权限。3) 响应生成:只有在授权推理表明用户具有访问权限的情况下,LLM才会生成最终的响应。否则,模型会拒绝请求,并给出相应的拒绝理由。
关键创新:CoA最重要的创新在于它将授权机制内化到LLM的推理过程中,使得授权成为模型生成响应的因果前提。与传统的外部防御方法相比,CoA能够实现动态授权,并能更好地处理细粒度的权限区分。此外,CoA还利用LLM的推理能力,使得授权过程更加透明和可解释。
关键设计:CoA的关键设计包括:1) 监督微调:使用包含各种授权状态的数据对LLM进行监督微调,使得模型能够学习到授权相关的知识和推理能力。2) 损失函数设计:设计合适的损失函数,鼓励模型生成正确的授权推理轨迹,并根据授权结果生成相应的响应。3) 提示工程:设计合适的提示模板,引导模型进行授权推理,并生成清晰可解释的推理轨迹。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoA框架在授权场景中保持了与原始LLM相当的性能,同时显著提高了模型对未授权访问的拒绝率。CoA能够有效应对各种对抗性攻击,并克服权限不匹配时的认知混淆。这些结果表明,CoA是一种有效的授权机制,可以提高LLM的安全性和可靠性。
🎯 应用场景
Chain-of-Authorization框架具有广泛的应用前景,例如在云计算、数据安全、智能助手等领域。它可以用于构建更加安全可靠的AI系统,防止敏感数据泄露和未经授权的访问。通过将授权机制内化到LLM中,CoA可以提高AI系统的可信度和透明度,促进AI技术在各个领域的应用。
📄 摘要(原文)
Large Language Models (LLMs) have become core cognitive components in modern artificial intelligence (AI) systems, combining internal knowledge with external context to perform complex tasks. However, LLMs typically treat all accessible data indiscriminately, lacking inherent awareness of knowledge ownership and access boundaries. This deficiency heightens risks of sensitive data leakage and adversarial manipulation, potentially enabling unauthorized system access and severe security crises. Existing protection strategies rely on rigid, uniform defense that prevent dynamic authorization. Structural isolation methods faces scalability bottlenecks, while prompt guidance methods struggle with fine-grained permissions distinctions. Here, we propose the Chain-of-Authorization (CoA) framework, a secure training and reasoning paradigm that internalizes authorization logic into LLMs' core capabilities. Unlike passive external defneses, CoA restructures the model's information flow: it embeds permission context at input and requires generating explicit authorization reasoning trajectory that includes resource review, identity resolution, and decision-making stages before final response. Through supervised fine-tuning on data covering various authorization status, CoA integrates policy execution with task responses, making authorization a causal prerequisite for substantive responses. Extensive evaluations show that CoA not only maintains comparable utility in authorized scenarios but also overcomes the cognitive confusion when permissions mismatches. It exhibits high rejection rates against various unauthorized and adversarial access. This mechanism leverages LLMs' reasoning capability to perform dynamic authorization, using natural language understanding as a proactive security mechanism for deploying reliable LLMs in modern AI systems.