IHEval: Evaluating Language Models on Following the Instruction Hierarchy

📄 arXiv: 2502.08745v2 📥 PDF

作者: Zhihan Zhang, Shiyang Li, Zixuan Zhang, Xin Liu, Haoming Jiang, Xianfeng Tang, Yifan Gao, Zheng Li, Haodong Wang, Zhaoxuan Tan, Yichuan Li, Qingyu Yin, Bing Yin, Meng Jiang

分类: cs.CL

发布日期: 2025-02-12 (更新: 2025-03-26)

备注: Accepted to NAACL 2025 for oral presentation. Our project page is located at https://ytyz1307zzh.github.io/iheval.github.io


💡 一句话要点

IHEval:提出指令层级评估基准,衡量语言模型在指令冲突下的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令遵循 语言模型评估 指令层级 冲突解决 基准测试

📋 核心要点

  1. 现有语言模型在处理指令时,缺乏对指令层级(如系统指令、用户指令、对话历史等)的有效区分和优先级排序。
  2. IHEval基准通过构建包含对齐或冲突指令的测试用例,系统性地评估语言模型在不同指令优先级下的表现。
  3. 实验表明,现有语言模型在面对指令冲突时性能显著下降,表明模型在指令层级理解和应用方面存在不足。

📝 摘要(中文)

指令层级对于确保语言模型行为的一致性和安全性至关重要,它确立了从系统消息到用户消息、对话历史和工具输出的优先级顺序。然而,这一主题受到的关注有限,并且缺乏全面的基准来评估模型遵循指令层级的能力。为了弥补这一差距,我们引入了IHEval,这是一个新颖的基准,包含跨越九个任务的3,538个示例,涵盖了不同优先级的指令对齐或冲突的情况。我们对流行语言模型的评估突显了它们在识别指令优先级方面的困难。与原始的指令遵循性能相比,所有评估的模型在面对冲突指令时都经历了急剧的性能下降。此外,最具竞争力的开源模型在解决此类冲突时仅达到48%的准确率。我们的结果强调了未来语言模型开发中需要进行有针对性的优化。

🔬 方法详解

问题定义:论文旨在解决语言模型在遵循指令时,未能有效区分和处理不同来源指令(如系统消息、用户消息、对话历史、工具输出)的优先级问题。现有方法缺乏对指令层级结构的明确建模和评估,导致模型在指令冲突时行为不稳定,影响其安全性和可靠性。

核心思路:论文的核心思路是构建一个包含多种指令冲突场景的评估基准IHEval,通过系统性地测试语言模型在不同优先级指令下的表现,来衡量模型对指令层级结构的理解和遵循能力。这种方法能够更全面地揭示模型在复杂指令环境下的弱点。

技术框架:IHEval基准包含九个不同的任务,每个任务都设计了包含对齐或冲突指令的测试用例。这些测试用例覆盖了不同优先级的指令来源,例如系统消息、用户消息、对话历史和工具输出。评估过程包括将测试用例输入到语言模型中,并根据模型的输出判断其是否正确地遵循了指令层级。

关键创新:IHEval基准的主要创新在于其系统性地构建了包含指令冲突的测试用例,从而能够更有效地评估语言模型对指令层级结构的理解和遵循能力。与以往的指令遵循评估方法相比,IHEval更关注模型在复杂指令环境下的表现,能够更全面地揭示模型的弱点。

关键设计:IHEval基准的关键设计在于其测试用例的构建方式。每个测试用例都包含多个指令,这些指令可能来自不同的来源,并且可能存在对齐或冲突。通过控制指令的来源和内容,可以系统性地评估模型在不同指令优先级下的表现。此外,IHEval还提供了详细的评估指标,用于衡量模型在不同任务和指令冲突场景下的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有流行的语言模型在面对指令冲突时性能显著下降。例如,最具竞争力的开源模型在解决指令冲突时的准确率仅为48%,远低于其在没有指令冲突时的表现。这一结果突显了现有模型在指令层级理解和应用方面的不足,表明需要进一步优化模型在复杂指令环境下的表现。

🎯 应用场景

该研究成果可应用于提升语言模型在各种实际应用场景中的可靠性和安全性,例如智能助手、聊天机器人、代码生成等。通过提高模型对指令层级结构的理解和遵循能力,可以减少模型产生不安全或不一致行为的风险,从而提升用户体验和信任度。未来的研究可以基于IHEval基准,开发更有效的指令遵循优化方法。

📄 摘要(原文)

The instruction hierarchy, which establishes a priority order from system messages to user messages, conversation history, and tool outputs, is essential for ensuring consistent and safe behavior in language models (LMs). Despite its importance, this topic receives limited attention, and there is a lack of comprehensive benchmarks for evaluating models' ability to follow the instruction hierarchy. We bridge this gap by introducing IHEval, a novel benchmark comprising 3,538 examples across nine tasks, covering cases where instructions in different priorities either align or conflict. Our evaluation of popular LMs highlights their struggle to recognize instruction priorities. All evaluated models experience a sharp performance decline when facing conflicting instructions, compared to their original instruction-following performance. Moreover, the most competitive open-source model only achieves 48% accuracy in resolving such conflicts. Our results underscore the need for targeted optimization in the future development of LMs.