IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs
作者: Chuan Guo, Juan Felipe Ceron Uribe, Sicheng Zhu, Christopher A. Choquette-Choo, Steph Lin, Nikhil Kandpal, Milad Nasr, Rai, Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao
分类: cs.AI, cs.CL, cs.CR, cs.LG
发布日期: 2026-03-11
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出IH-Challenge数据集以提升前沿LLM的指令层次性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令层次性 大型语言模型 强化学习 对抗样本 安全性评估 数据集构建 模型微调
📋 核心要点
- 现有方法在训练指令层次性时面临挑战,IH失败与指令遵循失败难以区分,且模型可能学习到不当的捷径。
- 本文提出IH-Challenge数据集,通过强化学习和在线对抗样本生成,旨在提升LLM的指令层次性稳健性。
- 实验结果显示,微调后的模型在多个基准测试中IH稳健性平均提高10.0%,不安全行为显著减少,同时保持了模型的能力。
📝 摘要(中文)
指令层次性(IH)定义了在冲突情况下大型语言模型(LLM)如何优先处理系统、开发者、用户和工具指令,为解决指令冲突提供了具体的信任排序策略。IH在防御越狱、系统提示提取和代理提示注入方面至关重要。然而,训练稳健的IH行为面临挑战:IH失败可能与指令遵循失败混淆,冲突可能很微妙,模型可能学习到诸如过度拒绝的捷径。为解决这些困难,本文提出了IH-Challenge,一个强化学习训练数据集。通过在IH-Challenge上微调GPT-5-Mini,在线生成对抗样本,IH的稳健性在16个基准测试中平均提高了10.0%(从84.1%提升至94.1%),不安全行为从6.6%降至0.7%,同时在一般安全评估中提高了有用性,并在内部静态代理提示注入评估中达到饱和,能力回归最小。我们发布了IH-Challenge数据集以支持未来对稳健指令层次性的研究。
🔬 方法详解
问题定义:本文要解决的问题是如何在大型语言模型中有效训练指令层次性(IH),以应对指令冲突和不安全行为。现有方法在处理IH失败时容易与指令遵循失败混淆,且模型可能学习到过度拒绝等不当行为。
核心思路:论文的核心思路是引入IH-Challenge数据集,通过强化学习和在线生成对抗样本,提升模型在指令层次性方面的稳健性。这样的设计旨在通过多样化的训练样本和动态调整策略,增强模型对复杂指令冲突的处理能力。
技术框架:整体架构包括数据集构建、模型微调和在线对抗样本生成三个主要模块。首先,构建IH-Challenge数据集,随后对GPT-5-Mini进行微调,最后通过生成对抗样本来进一步提升模型的鲁棒性。
关键创新:最重要的技术创新在于IH-Challenge数据集的引入及其在线对抗样本生成策略。这与现有方法的本质区别在于,传统方法往往依赖静态数据集,而本研究通过动态生成样本来应对模型在真实场景中的复杂性。
关键设计:在关键设计方面,采用了特定的损失函数来平衡指令遵循与指令层次性的训练目标,同时在模型微调过程中设置了适当的超参数,以确保模型在提升IH稳健性的同时不出现能力回归。具体的网络结构和参数设置在实验部分进行了详细描述。
📊 实验亮点
实验结果表明,微调后的模型在16个基准测试中,指令层次性稳健性平均提高了10.0%,从84.1%提升至94.1%。同时,不安全行为显著减少,从6.6%降至0.7%,并在一般安全评估中提高了模型的有用性,显示出良好的性能提升。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动化客服和安全敏感的对话系统等。通过提升指令层次性,LLM能够更有效地处理复杂的用户指令,减少不安全行为,从而在实际应用中提供更高的安全性和可靠性。未来,该研究可能推动更广泛的LLM应用,尤其是在需要高信任度的场景中。
📄 摘要(原文)
Instruction hierarchy (IH) defines how LLMs prioritize system, developer, user, and tool instructions under conflict, providing a concrete, trust-ordered policy for resolving instruction conflicts. IH is key to defending against jailbreaks, system prompt extractions, and agentic prompt injections. However, robust IH behavior is difficult to train: IH failures can be confounded with instruction-following failures, conflicts can be nuanced, and models can learn shortcuts such as overrefusing. We introduce IH-Challenge, a reinforcement learning training dataset, to address these difficulties. Fine-tuning GPT-5-Mini on IH-Challenge with online adversarial example generation improves IH robustness by +10.0% on average across 16 in-distribution, out-of-distribution, and human red-teaming benchmarks (84.1% to 94.1%), reduces unsafe behavior from 6.6% to 0.7% while improving helpfulness on general safety evaluations, and saturates an internal static agentic prompt injection evaluation, with minimal capability regression. We release the IH-Challenge dataset (https://huggingface.co/datasets/openai/ih-challenge) to support future research on robust instruction hierarchy.