IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization

📄 arXiv: 2411.06208v3 📥 PDF

作者: Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li

分类: cs.CL, cs.AI

发布日期: 2024-11-09 (更新: 2025-07-17)

备注: ACL 2025


💡 一句话要点

提出IOPO,通过输入-输出偏好优化提升LLM的复杂指令跟随能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 指令跟随 偏好优化 输入输出偏好 对齐方法

📋 核心要点

  1. 现有LLM在复杂指令跟随能力上存在不足,缺乏专门的算法来提升这一能力,同时复杂指令评估数据也相对有限。
  2. IOPO方法通过同时考虑输入和输出的偏好对,使LLM能够更好地理解和执行复杂指令,从而提升指令跟随能力。
  3. 实验结果表明,IOPO在领域内和领域外数据集上均优于SFT和DPO,验证了其在复杂指令跟随方面的有效性。

📝 摘要(中文)

本文针对大型语言模型(LLM)在复杂指令跟随方面的能力不足问题,提出了TRACE基准,包含12万训练数据和1千评估数据,用于提升和评估复杂指令跟随能力。同时,提出了一种名为IOPO(Input-Output Preference Optimization)的对齐方法,该方法同时考虑输入和输出的偏好对,使LLM不仅能快速对齐响应偏好,还能细致地探索指令偏好。在领域内和领域外数据集上的大量实验表明,IOPO的有效性,与SFT相比,在领域内数据上提高了8.15%,与DPO相比,提高了2.18%,在领域外数据上分别提高了6.29%和3.13%。

🔬 方法详解

问题定义:现有大型语言模型在处理日益复杂的指令时,其指令跟随能力面临挑战。一方面,高质量的复杂指令评估数据稀缺;另一方面,缺乏专门针对复杂指令跟随能力提升的优化算法。这导致LLM难以准确理解和执行复杂指令,限制了其在智能体和应用构建中的应用。

核心思路:IOPO的核心思路是同时优化输入(指令)和输出(响应)的偏好。通过构建输入-输出偏好对,模型不仅学习到对特定响应的偏好,还学习到对不同指令的偏好。这种双重偏好优化使得模型能够更全面地理解指令的意图,并生成更符合指令要求的响应。

技术框架:IOPO的整体框架包括数据收集、偏好建模和优化三个主要阶段。首先,构建TRACE数据集,包含大量的复杂指令和对应的优质响应。然后,利用这些数据构建输入-输出偏好对,例如,对于同一指令,选择更符合要求的响应作为正例,另一个作为负例。最后,使用这些偏好对来训练LLM,目标是使模型能够区分正例和负例,从而学习到指令和响应的偏好。

关键创新:IOPO的关键创新在于同时考虑了输入和输出的偏好。传统的偏好优化方法通常只关注输出的偏好,而忽略了输入(指令)的重要性。IOPO通过同时优化输入和输出的偏好,使模型能够更全面地理解指令的意图,并生成更符合指令要求的响应。这与现有方法只关注响应质量有本质区别。

关键设计:IOPO的关键设计包括:1)TRACE数据集的构建,确保数据集中包含足够数量的复杂指令和高质量响应;2)输入-输出偏好对的构建,确保偏好对能够准确反映指令和响应的质量差异;3)偏好优化损失函数的设计,确保模型能够有效地学习到指令和响应的偏好。具体的损失函数形式未知,但应能体现对正例偏好和对负例惩罚的思想。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IOPO在领域内数据集上相比SFT提升了8.15%,相比DPO提升了2.18%;在领域外数据集上,相比SFT提升了6.29%,相比DPO提升了3.13%。这些结果表明,IOPO在复杂指令跟随方面具有显著的优势,能够有效地提升LLM的性能。

🎯 应用场景

IOPO方法具有广泛的应用前景,可以应用于智能助手、对话系统、代码生成等领域。通过提升LLM的复杂指令跟随能力,可以使这些应用更加智能和高效。例如,在智能助手中,IOPO可以帮助LLM更好地理解用户的复杂指令,并提供更准确的帮助。在代码生成中,IOPO可以帮助LLM生成更符合要求的代码。

📄 摘要(原文)

In the realm of large language models (LLMs), the ability of models to accurately follow instructions is paramount as more agents and applications leverage LLMs for construction, where the complexity of instructions are rapidly increasing. However, on the one hand, there is only a certain amount of complex instruction evaluation data; on the other hand, there are no dedicated algorithms to improve the ability to follow complex instructions. To this end, this paper introduces TRACE, a benchmark for improving and evaluating the complex instructionfollowing ability, which consists of 120K training data and 1K evaluation data. Furthermore, we propose IOPO (Input-Output Preference Optimization) alignment method which takes both input and output preference pairs into consideration, where LLMs not only rapidly align with response preferences but also meticulously explore the instruction preferences. Extensive experiments on both in-domain and outof-domain datasets confirm the effectiveness of IOPO, showing 8.15%, 2.18% improvements on in-domain data and 6.29%, 3.13% on outof-domain data compared to SFT and DPO respectively.