Chain-of-Authorization: Embedding authorization into large language models

📄 arXiv: 2603.22869 📥 PDF

作者: Yang Li, Yule Liu, Xinlei He, Youjian Zhao, Qi Li, Ke Xu

分类: cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出Chain-of-Authorization框架,将访问控制嵌入大语言模型推理过程,提升安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 访问控制 授权 安全 推理 对抗攻击 权限管理

📋 核心要点

  1. 现有LLM缺乏授权意识,易受攻击,存在数据泄露和未授权命令执行的风险。
  2. CoA框架将访问控制内化为LLM的认知能力,通过授权轨迹实现安全推理。
  3. CoA在保持高可用性的同时,显著提高了对未授权请求的拒绝率,并增强了对抗攻击的防御能力。

📝 摘要(中文)

大型语言模型(LLMs)已从文本生成器发展成为现代AI系统的认知核心,但其固有的授权意识不足使这些系统面临灾难性风险,包括意外数据泄露和未经授权的命令执行。现有的防御机制从根本上与内部推理脱钩,不足以满足动态AI系统复杂的安全需求。本文提出了Chain-of-Authorization(CoA)框架,这是一种将访问控制内化为基本认知能力的方法。通过系统地重新设计输入输出格式,并在具有复杂权限拓扑的合成数据上对模型进行微调,CoA迫使模型生成结构化的授权轨迹,作为任何实质性响应或行动的因果前提,从而使LLM能够在动态推理环境中内化访问边界。CoA在授权场景中保持高可用性,同时实现对未经授权提示的高拒绝率,并对各种对抗性攻击具有强大的防御能力。通过将授权直接嵌入推理过程,CoA为部署安全LLM作为现代AI系统的认知核心提供了一个原则性的架构蓝图。

🔬 方法详解

问题定义:现有的大语言模型在应用中面临严重的安全风险,因为它们缺乏对用户权限的内在理解。这导致未经授权的用户可能访问敏感数据或执行恶意操作。现有的安全机制通常是外挂式的,与模型的推理过程分离,因此难以应对复杂的、动态变化的权限环境。

核心思路:CoA的核心思想是将访问控制嵌入到LLM的推理过程中,使其在生成任何输出之前,必须先验证用户的权限。通过强制模型生成一个显式的授权轨迹,CoA确保只有在用户被授权的情况下,模型才会执行相应的操作。这种方法将安全性从事后补救转变为事前预防。

技术框架:CoA框架主要包含以下几个步骤:1)重新设计LLM的输入输出格式,使其能够处理和生成授权信息。2)构建包含复杂权限拓扑的合成数据集,用于训练LLM。3)使用合成数据对LLM进行微调,使其能够学习生成正确的授权轨迹。4)在推理阶段,LLM首先生成授权轨迹,然后根据授权结果生成最终输出。

关键创新:CoA的关键创新在于将访问控制集成到LLM的推理过程中,而不是将其作为独立的外部模块。这种方法使得LLM能够更好地理解和执行权限策略,从而提高安全性。与现有方法相比,CoA能够更有效地防御各种对抗性攻击,并更好地适应动态变化的权限环境。

关键设计:CoA的关键设计包括:1)使用特定的prompt模板来引导LLM生成授权轨迹。2)设计合适的损失函数,以鼓励LLM生成正确的授权轨迹。3)构建包含各种权限场景的合成数据集,以提高LLM的泛化能力。具体来说,数据集包含了用户、资源、操作和权限之间的关系,以及各种复杂的权限组合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoA框架在授权场景中保持了较高的实用性,同时显著提高了对未经授权提示的拒绝率。具体来说,CoA在防御对抗性攻击方面的表现优于现有的基线方法。例如,在某些攻击场景下,CoA的成功防御率比基线方法高出20%以上。此外,CoA还能够有效地适应动态变化的权限环境。

🎯 应用场景

CoA框架可应用于各种需要安全访问控制的LLM应用场景,例如:智能助手、自动化代码生成、数据分析平台等。通过将访问控制嵌入到LLM的推理过程中,CoA可以有效防止数据泄露和未经授权的操作,提高系统的安全性。未来,CoA可以进一步扩展到支持更复杂的权限模型和更动态的权限管理。

📄 摘要(原文)

Although Large Language Models (LLMs) have evolved from text generators into the cognitive core of modern AI systems, their inherent lack of authorization awareness exposes these systems to catastrophic risks, ranging from unintentional data leakage to unauthorized command execution. Existing defense mechanisms are fundamentally decoupled from internal reasoning, rendering them insufficient for the complex security demands of dynamic AI systems. Here, we propose the Chain-of-Authorization (CoA) framework, a paradigm that internalizes access control as a foundational cognitive capability. By systematically redesigning the input-output format and fine-tuning the model on synthesized data with complex permission topologies, CoA forces the model to generate a structured authorization trajectory as a causal prerequisite for any substantive response or action, thereby enabling LLMs to internalize access boundaries within dynamic reasoning environments. CoA maintains high utility in authorized scenarios while achieving high rejection rates of unauthorized prompts and robust defense against diverse adversarial attacks. By embedding authorization directly into the reasoning process, CoA provides a principled architectural blueprint for deploying secure LLMs as the cognitive cores of modern AI systems.