Many-Tier Instruction Hierarchy in LLM Agents

作者: Jingyu Zhang, Tianjian Li, William Jurayj, Hongyuan Zhan, Benjamin Van Durme, Daniel Khashabi

分类: cs.CL, cs.AI

发布日期: 2026-04-10

💡 一句话要点

提出ManyIH以解决LLM Agent中多层级指令冲突问题，并构建相应评测基准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令层级 LLM Agent 指令冲突解决 多层级权限 基准测试

📋 核心要点

现有指令层级方法在处理真实Agent环境中复杂、多来源的指令冲突时存在局限性，无法有效区分和处理细粒度的权限级别。
论文提出ManyIH范式，允许定义任意多个权限级别，从而更灵活地处理不同来源指令的冲突，确保Agent行为的安全性和有效性。
构建了ManyIH-Bench基准测试，包含多达12个层级的冲突指令，实验表明现有模型在处理此类复杂冲突时性能显著下降。

📝 摘要（中文）

大型语言模型Agent从多个来源接收指令，包括系统消息、用户提示和工具输出等，这些指令具有不同的信任级别和权限。当这些指令发生冲突时，模型必须可靠地遵循最高权限的指令，以保持安全性和有效性。现有的指令层级（IH）范式假设一个固定的、少量（通常少于五个）的权限级别，并由严格的角色标签（例如，系统>用户）定义。这不足以应对实际的Agent环境，因为冲突可能发生在更多的来源和上下文中。本文提出了多层级指令层级（ManyIH）范式，用于解决具有任意多个权限级别的指令之间的冲突。同时，引入了ManyIH-Bench，这是第一个针对ManyIH的基准测试。ManyIH-Bench要求模型在多达12个级别的冲突指令中导航，这些指令具有不同的权限，包含853个Agent任务（427个编码任务和426个指令跟随任务）。ManyIH-Bench组合了由LLM开发的并由人工验证的约束，以创建跨越46个真实世界Agent的现实且困难的测试用例。实验表明，即使是当前最先进的模型在指令冲突规模扩大时，性能也很差（约40%的准确率）。这项工作强调了迫切需要针对Agent环境中细粒度的、可扩展的指令冲突解决方法。

🔬 方法详解

问题定义：现有的大语言模型Agent在接收指令时，面临着来自系统消息、用户提示、工具输出等多种来源的指令，这些指令可能存在冲突。传统的指令层级方法假设权限级别数量有限且固定，无法有效处理真实Agent环境中复杂多变的指令冲突情况，导致Agent行为不稳定甚至出现安全问题。

核心思路：论文的核心思路是引入Many-Tier Instruction Hierarchy (ManyIH) 范式，允许定义任意多个权限级别，从而能够更细粒度地区分和处理不同来源指令的优先级。通过构建更精细的指令层级，确保Agent始终遵循最高权限的指令，从而保证其行为的安全性和有效性。

技术框架：ManyIH框架主要包含两个部分：一是多层级指令的定义和管理，允许灵活地设置不同来源指令的权限级别；二是冲突解决机制，当多个指令发生冲突时，能够根据指令的权限级别进行仲裁，选择执行最高权限的指令。ManyIH-Bench基准测试用于评估模型在多层级指令冲突环境下的表现。

关键创新：最重要的创新在于提出了ManyIH范式，打破了传统指令层级方法中权限级别数量有限的限制，使其能够适应更复杂的Agent环境。此外，ManyIH-Bench基准测试的构建，为评估和改进Agent的指令冲突解决能力提供了标准化的平台。

关键设计：ManyIH-Bench的关键设计在于其测试用例的生成方式。它利用LLM生成约束条件，并由人工进行验证，从而创建了既具有真实性又具有挑战性的测试用例。这些测试用例涵盖了46个真实世界的Agent，包含编码和指令跟随等多种任务，并涉及多达12个层级的冲突指令。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是当前最先进的LLM模型在ManyIH-Bench基准测试上的表现也不尽如人意，准确率仅为40%左右。这表明现有模型在处理多层级指令冲突方面仍存在显著不足，亟需开发更有效的指令冲突解决方法。

🎯 应用场景

该研究成果可应用于各种需要智能Agent进行决策和执行任务的场景，例如智能客服、自动化流程管理、机器人控制等。通过提高Agent在复杂指令环境下的稳定性和安全性，可以提升其在实际应用中的可靠性和效率，并降低潜在风险。

📄 摘要（原文）

Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.

Many-Tier Instruction Hierarchy in LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理