IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

作者: Chuan Guo, Juan Felipe Ceron Uribe, Sicheng Zhu, Christopher A. Choquette-Choo, Steph Lin, Nikhil Kandpal, Milad Nasr, Rai, Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao

分类: cs.AI, cs.CL, cs.CR, cs.LG

发布日期: 2026-03-11

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

提出IH-Challenge数据集以提升前沿LLM的指令层次性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令层次性 大型语言模型 强化学习 对抗样本 安全性评估 数据集构建 模型微调

📋 核心要点

现有方法在训练指令层次性时面临挑战，IH失败与指令遵循失败难以区分，且模型可能学习到不当的捷径。
本文提出IH-Challenge数据集，通过强化学习和在线对抗样本生成，旨在提升LLM的指令层次性稳健性。
实验结果显示，微调后的模型在多个基准测试中IH稳健性平均提高10.0%，不安全行为显著减少，同时保持了模型的能力。

📝 摘要（中文）

指令层次性（IH）定义了在冲突情况下大型语言模型（LLM）如何优先处理系统、开发者、用户和工具指令，为解决指令冲突提供了具体的信任排序策略。IH在防御越狱、系统提示提取和代理提示注入方面至关重要。然而，训练稳健的IH行为面临挑战：IH失败可能与指令遵循失败混淆，冲突可能很微妙，模型可能学习到诸如过度拒绝的捷径。为解决这些困难，本文提出了IH-Challenge，一个强化学习训练数据集。通过在IH-Challenge上微调GPT-5-Mini，在线生成对抗样本，IH的稳健性在16个基准测试中平均提高了10.0%（从84.1%提升至94.1%），不安全行为从6.6%降至0.7%，同时在一般安全评估中提高了有用性，并在内部静态代理提示注入评估中达到饱和，能力回归最小。我们发布了IH-Challenge数据集以支持未来对稳健指令层次性的研究。

🔬 方法详解

问题定义：本文要解决的问题是如何在大型语言模型中有效训练指令层次性（IH），以应对指令冲突和不安全行为。现有方法在处理IH失败时容易与指令遵循失败混淆，且模型可能学习到过度拒绝等不当行为。

核心思路：论文的核心思路是引入IH-Challenge数据集，通过强化学习和在线生成对抗样本，提升模型在指令层次性方面的稳健性。这样的设计旨在通过多样化的训练样本和动态调整策略，增强模型对复杂指令冲突的处理能力。

技术框架：整体架构包括数据集构建、模型微调和在线对抗样本生成三个主要模块。首先，构建IH-Challenge数据集，随后对GPT-5-Mini进行微调，最后通过生成对抗样本来进一步提升模型的鲁棒性。

关键创新：最重要的技术创新在于IH-Challenge数据集的引入及其在线对抗样本生成策略。这与现有方法的本质区别在于，传统方法往往依赖静态数据集，而本研究通过动态生成样本来应对模型在真实场景中的复杂性。

关键设计：在关键设计方面，采用了特定的损失函数来平衡指令遵循与指令层次性的训练目标，同时在模型微调过程中设置了适当的超参数，以确保模型在提升IH稳健性的同时不出现能力回归。具体的网络结构和参数设置在实验部分进行了详细描述。

📊 实验亮点

实验结果表明，微调后的模型在16个基准测试中，指令层次性稳健性平均提高了10.0%，从84.1%提升至94.1%。同时，不安全行为显著减少，从6.6%降至0.7%，并在一般安全评估中提高了模型的有用性，显示出良好的性能提升。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化客服和安全敏感的对话系统等。通过提升指令层次性，LLM能够更有效地处理复杂的用户指令，减少不安全行为，从而在实际应用中提供更高的安全性和可靠性。未来，该研究可能推动更广泛的LLM应用，尤其是在需要高信任度的场景中。

📄 摘要（原文）

Instruction hierarchy (IH) defines how LLMs prioritize system, developer, user, and tool instructions under conflict, providing a concrete, trust-ordered policy for resolving instruction conflicts. IH is key to defending against jailbreaks, system prompt extractions, and agentic prompt injections. However, robust IH behavior is difficult to train: IH failures can be confounded with instruction-following failures, conflicts can be nuanced, and models can learn shortcuts such as overrefusing. We introduce IH-Challenge, a reinforcement learning training dataset, to address these difficulties. Fine-tuning GPT-5-Mini on IH-Challenge with online adversarial example generation improves IH robustness by +10.0% on average across 16 in-distribution, out-of-distribution, and human red-teaming benchmarks (84.1% to 94.1%), reduces unsafe behavior from 6.6% to 0.7% while improving helpfulness on general safety evaluations, and saturates an internal static agentic prompt injection evaluation, with minimal capability regression. We release the IH-Challenge dataset (https://huggingface.co/datasets/openai/ih-challenge) to support future research on robust instruction hierarchy.

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理