Many-Tier Instruction Hierarchy in LLM Agents
作者: Jingyu Zhang, Tianjian Li, William Jurayj, Hongyuan Zhan, Benjamin Van Durme, Daniel Khashabi
分类: cs.CL, cs.AI
发布日期: 2026-04-10
💡 一句话要点
提出ManyIH以解决LLM Agent中多层级指令冲突问题,并构建相应评测基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令层级 LLM Agent 指令冲突解决 多层级权限 基准测试
📋 核心要点
- 现有指令层级方法在处理真实Agent环境中复杂、多来源的指令冲突时存在局限性,无法有效区分和处理细粒度的权限级别。
- 论文提出ManyIH范式,允许定义任意多个权限级别,从而更灵活地处理不同来源指令的冲突,确保Agent行为的安全性和有效性。
- 构建了ManyIH-Bench基准测试,包含多达12个层级的冲突指令,实验表明现有模型在处理此类复杂冲突时性能显著下降。
📝 摘要(中文)
大型语言模型Agent从多个来源接收指令,包括系统消息、用户提示和工具输出等,这些指令具有不同的信任级别和权限。当这些指令发生冲突时,模型必须可靠地遵循最高权限的指令,以保持安全性和有效性。现有的指令层级(IH)范式假设一个固定的、少量(通常少于五个)的权限级别,并由严格的角色标签(例如,系统>用户)定义。这不足以应对实际的Agent环境,因为冲突可能发生在更多的来源和上下文中。本文提出了多层级指令层级(ManyIH)范式,用于解决具有任意多个权限级别的指令之间的冲突。同时,引入了ManyIH-Bench,这是第一个针对ManyIH的基准测试。ManyIH-Bench要求模型在多达12个级别的冲突指令中导航,这些指令具有不同的权限,包含853个Agent任务(427个编码任务和426个指令跟随任务)。ManyIH-Bench组合了由LLM开发的并由人工验证的约束,以创建跨越46个真实世界Agent的现实且困难的测试用例。实验表明,即使是当前最先进的模型在指令冲突规模扩大时,性能也很差(约40%的准确率)。这项工作强调了迫切需要针对Agent环境中细粒度的、可扩展的指令冲突解决方法。
🔬 方法详解
问题定义:现有的大语言模型Agent在接收指令时,面临着来自系统消息、用户提示、工具输出等多种来源的指令,这些指令可能存在冲突。传统的指令层级方法假设权限级别数量有限且固定,无法有效处理真实Agent环境中复杂多变的指令冲突情况,导致Agent行为不稳定甚至出现安全问题。
核心思路:论文的核心思路是引入Many-Tier Instruction Hierarchy (ManyIH) 范式,允许定义任意多个权限级别,从而能够更细粒度地区分和处理不同来源指令的优先级。通过构建更精细的指令层级,确保Agent始终遵循最高权限的指令,从而保证其行为的安全性和有效性。
技术框架:ManyIH框架主要包含两个部分:一是多层级指令的定义和管理,允许灵活地设置不同来源指令的权限级别;二是冲突解决机制,当多个指令发生冲突时,能够根据指令的权限级别进行仲裁,选择执行最高权限的指令。ManyIH-Bench基准测试用于评估模型在多层级指令冲突环境下的表现。
关键创新:最重要的创新在于提出了ManyIH范式,打破了传统指令层级方法中权限级别数量有限的限制,使其能够适应更复杂的Agent环境。此外,ManyIH-Bench基准测试的构建,为评估和改进Agent的指令冲突解决能力提供了标准化的平台。
关键设计:ManyIH-Bench的关键设计在于其测试用例的生成方式。它利用LLM生成约束条件,并由人工进行验证,从而创建了既具有真实性又具有挑战性的测试用例。这些测试用例涵盖了46个真实世界的Agent,包含编码和指令跟随等多种任务,并涉及多达12个层级的冲突指令。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是当前最先进的LLM模型在ManyIH-Bench基准测试上的表现也不尽如人意,准确率仅为40%左右。这表明现有模型在处理多层级指令冲突方面仍存在显著不足,亟需开发更有效的指令冲突解决方法。
🎯 应用场景
该研究成果可应用于各种需要智能Agent进行决策和执行任务的场景,例如智能客服、自动化流程管理、机器人控制等。通过提高Agent在复杂指令环境下的稳定性和安全性,可以提升其在实际应用中的可靠性和效率,并降低潜在风险。
📄 摘要(原文)
Large language model agents receive instructions from many sources-system messages, user prompts, tool outputs, and more-each carrying different levels of trust and authority. When these instructions conflict, models must reliably follow the highest-privilege instruction to remain safe and effective. The dominant paradigm, instruction hierarchy (IH), assumes a fixed, small set of privilege levels (typically fewer than five) defined by rigid role labels (e.g., system > user). This is inadequate for real-world agentic settings, where conflicts can arise across far more sources and contexts. In this work, we propose Many-Tier Instruction Hierarchy (ManyIH), a paradigm for resolving instruction conflicts among instructions with arbitrarily many privilege levels. We introduce ManyIH-Bench, the first benchmark for ManyIH. ManyIH-Bench requires models to navigate up to 12 levels of conflicting instructions with varying privileges, comprising 853 agentic tasks (427 coding and 426 instruction-following). ManyIH-Bench composes constraints developed by LLMs and verified by humans to create realistic and difficult test cases spanning 46 real-world agents. Our experiments show that even the current frontier models perform poorly (~40% accuracy) when instruction conflict scales. This work underscores the urgent need for methods that explicitly target fine-grained, scalable instruction conflict resolution in agentic settings.