Reverse Preference Optimization for Complex Instruction Following

作者: Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li

分类: cs.CL

发布日期: 2025-05-28

备注: ACL 2025 Findings

💡 一句话要点

提出反向偏好优化（RPO）方法，提升LLM在复杂指令跟随任务中的性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指令跟随 大语言模型 偏好优化 反向偏好优化 多约束学习

📋 核心要点

现有指令跟随方法在处理多约束复杂指令时，易因偏好对选择的噪声而性能受限。
反向偏好优化（RPO）通过动态反转指令约束，确保选择的响应完美，从而减少噪声。
实验表明，RPO在Sysbench和Multi-IF基准测试中均优于DPO，且可有效扩展至更大模型。

📝 摘要（中文）

指令跟随（IF）是大语言模型（LLMs）的关键能力。然而，处理具有多重约束的复杂指令仍然具有挑战性。以往的方法通常基于满足的约束数量来选择偏好对，这引入了噪声，因为选择的例子可能未能遵循某些约束，而拒绝的例子可能在某些方面优于选择的例子。为了解决与多个偏好对齐的挑战，我们提出了一种简单而有效的方法，称为反向偏好优化（RPO）。它通过动态反转指令中的约束来减轻偏好对中的噪声，以确保选择的响应是完美的，从而减轻了广泛采样和过滤以收集完美响应的负担。此外，反转还扩大了选择和拒绝响应之间的差距，从而明确了优化方向，使其对噪声更具鲁棒性。我们在两个多轮IF基准测试Sysbench和Multi-IF上评估了RPO，证明了相对于DPO基线分别平均提高了4.6和2.5个点（在Llama-3.1 8B上）。此外，RPO可以有效地跨模型尺寸（8B到70B参数）进行扩展，其中70B RPO模型超过了GPT-4o。

🔬 方法详解

问题定义：现有指令跟随方法在处理复杂指令时，通常基于响应满足的约束数量来构建偏好对。这种方法的痛点在于，选择的响应可能未能完全满足所有约束，而拒绝的响应可能在某些方面表现更好，从而引入噪声，影响模型的学习效果。此外，收集高质量的、完全符合所有约束的响应需要大量的采样和过滤，成本较高。

核心思路：RPO的核心思路是通过动态反转指令中的约束，来确保选择的响应是“完美”的，即完全满足反转后的指令。这样可以有效地减少偏好对中的噪声，因为选择的响应一定是优于拒绝的响应的。同时，反转约束也扩大了选择和拒绝响应之间的差距，使得优化方向更加明确，模型对噪声的鲁棒性更强。

技术框架：RPO方法主要包含以下几个步骤：1）对于给定的复杂指令，生成多个候选响应；2）对于每个候选响应，动态反转指令中的部分约束，生成反转后的指令；3）使用语言模型生成对反转后指令的响应；4）构建偏好对，选择对反转后指令的响应作为“选择”的响应，原始指令下其他候选响应作为“拒绝”的响应；5）使用偏好优化算法（如DPO）训练模型。

关键创新：RPO最重要的创新点在于动态反转指令约束的思想。与传统的基于满足约束数量构建偏好对的方法不同，RPO通过反转约束来确保选择的响应是“完美”的，从而减少了偏好对中的噪声。这种方法不需要大量的采样和过滤，就可以获得高质量的训练数据。

关键设计：RPO的关键设计包括：1）如何选择需要反转的约束？论文中可能采用随机选择或者基于某种策略选择的方式。2）反转约束的具体方法是什么？例如，将“必须包含A”反转为“不能包含A”。3）偏好优化算法的选择，可以使用DPO或其他偏好优化算法。4）损失函数的设计，需要考虑如何最大化选择响应的概率，同时最小化拒绝响应的概率。

🖼️ 关键图片

📊 实验亮点

RPO在Sysbench和Multi-IF两个多轮指令跟随基准测试中，相对于DPO基线分别取得了平均4.6和2.5个点的提升（在Llama-3.1 8B上）。更重要的是，RPO能够有效扩展到更大的模型尺寸（8B到70B参数），并且70B RPO模型在这些基准测试中超越了GPT-4o，展示了其强大的性能和潜力。

🎯 应用场景

RPO方法可应用于各种需要复杂指令跟随的场景，例如智能助手、机器人控制、代码生成等。通过提高模型对复杂指令的理解和执行能力，可以提升用户体验，扩展应用范围。未来，RPO可以与其他技术结合，例如强化学习、主动学习等，进一步提升指令跟随的性能。

📄 摘要（原文）

Instruction following (IF) is a critical capability for large language models (LLMs). However, handling complex instructions with multiple constraints remains challenging. Previous methods typically select preference pairs based on the number of constraints they satisfy, introducing noise where chosen examples may fail to follow some constraints and rejected examples may excel in certain respects over the chosen ones. To address the challenge of aligning with multiple preferences, we propose a simple yet effective method called Reverse Preference Optimization (RPO). It mitigates noise in preference pairs by dynamically reversing the constraints within the instruction to ensure the chosen response is perfect, alleviating the burden of extensive sampling and filtering to collect perfect responses. Besides, reversal also enlarges the gap between chosen and rejected responses, thereby clarifying the optimization direction and making it more robust to noise. We evaluate RPO on two multi-turn IF benchmarks, Sysbench and Multi-IF, demonstrating average improvements over the DPO baseline of 4.6 and 2.5 points (on Llama-3.1 8B), respectively. Moreover, RPO scales effectively across model sizes (8B to 70B parameters), with the 70B RPO model surpassing GPT-4o.

Reverse Preference Optimization for Complex Instruction Following

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理