HIPO: Instruction Hierarchy via Constrained Reinforcement Learning

📄 arXiv: 2603.16152v1 📥 PDF

作者: Keru Chen, Jun Luo, Sen Lin, Yingbin Liang, Alvaro Velasquez, Nathaniel Bastian, Shaofeng Zou

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-03-17

备注: 9 pages + appendix. Under review


💡 一句话要点

提出HIPO框架,通过约束强化学习解决层级指令遵循问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 层级指令遵循 约束强化学习 大型语言模型 系统提示合规性 原始-对偶优化

📋 核心要点

  1. 现有RLHF和DPO方法在层级指令遵循中表现不佳,未能有效保证系统提示的合规性。
  2. HIPO框架将层级指令遵循建模为约束马尔可夫决策过程,显式约束系统提示合规性。
  3. 实验表明,HIPO显著提升了系统合规性和用户效用,并促使模型关注长程系统token。

📝 摘要(中文)

层级指令遵循(HIF)是指使用按优先级排序的指令栈来提示大型语言模型的问题。诸如RLHF和DPO等标准方法通常在此问题上失效,因为它们主要针对单一目标进行优化,未能明确地强制执行系统提示的合规性。同时,监督微调依赖于模仿经过过滤的、合规的数据,这无法在算法层面建立优先级不对称性。在本文中,我们介绍 extsc{HIPO},一种新颖的对齐框架,它将HIF形式化为约束马尔可夫决策过程。 extsc{HIPO}将系统提示从单纯的输入上下文提升为严格的算法边界。通过使用原始-对偶安全强化学习方法,该算法动态地强制执行系统提示合规性作为显式约束,从而在可行区域内严格地最大化用户效用。在各种模型架构(例如,Qwen、Phi、Llama)上的广泛评估表明, extsc{HIPO}显著提高了系统合规性和用户效用。此外,机制分析表明,这种约束优化自主地驱动模型将其注意力转移到长程系统token,为复杂工作流程中可靠的LLM部署提供了原则性基础。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在层级指令遵循(HIF)任务中,难以同时兼顾系统提示的合规性和用户效用最大化的问题。现有方法,如RLHF和DPO,主要优化单一目标,忽略了系统提示的约束。而监督微调虽然可以模仿合规数据,但无法在算法层面保证指令的优先级。

核心思路:HIPO的核心思路是将HIF问题建模为一个约束马尔可夫决策过程(CMDP)。通过将系统提示视为算法的硬性约束,而非仅仅是输入上下文,HIPO能够确保模型在满足系统提示的前提下,最大化用户效用。这种方法借鉴了安全强化学习的思想,避免模型产生违反系统提示的行为。

技术框架:HIPO的整体框架基于原始-对偶安全强化学习。它包含以下主要模块:1) 环境:模拟用户与LLM的交互过程,包括接收指令、生成回复等;2) 策略网络:负责生成LLM的回复;3) 奖励函数:用于评估回复的质量,包括用户效用和系统提示合规性;4) 约束函数:用于衡量回复是否违反系统提示;5) 原始-对偶优化器:用于更新策略网络,同时满足奖励最大化和约束条件。

关键创新:HIPO的关键创新在于将系统提示视为算法的显式约束,并通过约束强化学习来优化模型。这与传统的RLHF和DPO方法不同,后者通常将系统提示视为输入的一部分,而没有强制执行其合规性。此外,HIPO使用原始-对偶方法来解决约束优化问题,能够有效地平衡用户效用和系统提示合规性。

关键设计:HIPO的关键设计包括:1) 奖励函数的设计,需要同时考虑用户效用和系统提示合规性;2) 约束函数的设计,需要准确衡量回复是否违反系统提示;3) 原始-对偶优化器的选择,需要保证算法的收敛性和稳定性。论文中可能还涉及一些超参数的调整,例如学习率、折扣因子等,以获得最佳性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,HIPO在多种模型架构(Qwen, Phi, Llama)上均取得了显著的性能提升,在系统合规性和用户效用方面均优于现有方法。机制分析还发现,HIPO能够促使模型更多地关注长程系统token,这有助于提高模型对系统提示的理解和执行能力。

🎯 应用场景

HIPO框架可应用于各种需要严格遵循指令的场景,例如智能客服、自动代码生成、医疗诊断等。通过确保LLM严格遵守预定义的规则和约束,HIPO可以提高系统的可靠性和安全性,减少错误和风险。未来,HIPO有望成为构建可信赖LLM的重要技术。

📄 摘要(原文)

Hierarchical Instruction Following (HIF) refers to the problem of prompting large language models with a priority-ordered stack of instructions. Standard methods like RLHF and DPO typically fail in this problem since they mainly optimize for a single objective, failing to explicitly enforce system prompt compliance. Meanwhile, supervised fine-tuning relies on mimicking filtered, compliant data, which fails to establish the priority asymmetry at the algorithmic level. In this paper, we introduce \textsc{HIPO}, a novel alignment framework that formulates HIF as a Constrained Markov Decision Process. \textsc{HIPO} elevates system prompts from mere input context to strict algorithmic boundaries. Using a primal-dual safe reinforcement learning approach, the algorithm dynamically enforces system prompt compliance as an explicit constraint, maximizing user utility strictly within this feasible region. Extensive evaluations across diverse model architectures (e.g., Qwen, Phi, Llama) demonstrate that \textsc{HIPO} significantly improves both system compliance and user utility. Furthermore, mechanistic analysis reveals that this constrained optimization autonomously drives the model to shift its attention toward long-range system tokens, providing a principled foundation for reliable LLM deployment in complex workflows.