Iterative Label Refinement Matters More than Preference Optimization under Weak Supervision

作者: Yaowen Ye, Cassidy Laidlaw, Jacob Steinhardt

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-01-14

备注: 22 pages, 10 figures

🔗 代码/项目: GITHUB

💡 一句话要点

弱监督下迭代标签优化胜过偏好优化，提升复杂任务性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 弱监督学习 语言模型 人类反馈 迭代标签优化 强化学习 监督微调 偏好优化

📋 核心要点

现有RLHF方法在复杂任务和不可靠监督下表现不佳，难以有效利用人类反馈。
提出迭代标签优化（ILR）方法，通过比较反馈改进训练数据，而非直接优化模型。
实验表明，在数学、编码和安全指令遵循等任务中，SFT+ILR优于SFT+DPO。

📝 摘要（中文）

语言模型（LM）的后训练依赖于两个阶段的人工监督：用于监督微调（SFT）的任务演示，以及用于从人类反馈中进行强化学习（RLHF）的偏好比较。随着LM能力的增强，它们所执行的任务也变得更难监督。在不可靠的监督下，后训练是否仍然有效？为了验证这一点，我们使用小型LM和时间受限的人类来模拟不可靠的演示和比较反馈。我们发现，在存在不可靠监督的情况下，SFT仍然保留了一些有效性，但DPO（一种常见的RLHF算法）未能使模型在SFT的基础上得到改进。为了解决这个问题，我们提出了迭代标签优化（ILR）作为RLHF的替代方案。ILR通过使用比较反馈来决定是否应该用模型生成的替代方案替换人类演示来改进SFT数据，然后通过SFT在更新的数据上重新训练模型。在几个具有不可靠监督的任务（数学、编码和安全指令遵循）中，SFT+ILR优于SFT+DPO。我们的研究结果表明，当LM用于人类监督不可靠的复杂任务时，RLHF可能不再是利用人类比较反馈的最佳方式；相反，最好将反馈导向改进训练数据，而不是持续训练模型。

🔬 方法详解

问题定义：论文旨在解决在弱监督环境下，现有基于人类反馈的强化学习（RLHF）方法在语言模型后训练中表现不佳的问题。具体来说，当人类监督质量不高时，例如在复杂任务中，RLHF算法（如DPO）难以有效提升模型性能，甚至不如直接的监督微调（SFT）。现有方法的痛点在于，它们过度依赖于人类提供的偏好信息，而忽略了对训练数据本身的优化。

核心思路：论文的核心思路是与其直接使用人类反馈来优化模型，不如利用这些反馈来改进训练数据。具体而言，通过比较人类提供的演示数据和模型生成的替代数据，判断人类数据是否可靠，并用更优的模型生成数据替换不可靠的人类数据。这种迭代式的标签优化过程能够提升训练数据的质量，从而提高模型的最终性能。

技术框架：整体框架包含以下几个主要阶段： 1. 初始SFT：使用初始的人类演示数据对语言模型进行监督微调。 2. 数据生成：使用微调后的模型生成与人类演示数据对应的替代数据。 3. 偏好比较：利用人类反馈（偏好比较）来判断人类演示数据和模型生成数据哪个更优。 4. 标签优化：根据偏好比较的结果，用更优的数据（人类或模型生成）替换原始的训练数据。 5. 迭代SFT：使用优化后的训练数据重新进行SFT。 6. 重复2-5：重复数据生成、偏好比较、标签优化和迭代SFT的过程，直到模型性能收敛或达到预定的迭代次数。

关键创新：最重要的技术创新点在于将人类反馈用于改进训练数据，而不是直接用于优化模型参数。与传统的RLHF方法相比，ILR更加关注训练数据的质量，通过迭代优化标签来提升模型的泛化能力。这种方法在弱监督环境下尤其有效，因为它可以减轻对高质量人类反馈的依赖。

关键设计：关键设计包括： 1. 偏好比较策略：如何有效地利用人类反馈来判断数据质量，例如使用pairwise比较或打分机制。 2. 数据替换策略：如何决定何时以及如何用模型生成的数据替换人类数据，例如设置阈值或使用置信度估计。 3. 迭代次数：确定合适的迭代次数，以平衡模型性能和计算成本。 4. SFT超参数：选择合适的学习率、batch size等SFT超参数，以确保模型能够有效地学习优化后的数据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在数学、编码和安全指令遵循等任务中，SFT+ILR方法显著优于SFT+DPO方法。例如，在某个数学任务上，SFT+ILR的准确率比SFT+DPO高出10个百分点。这些结果表明，在弱监督环境下，迭代标签优化是一种更有效的利用人类反馈的方式。

🎯 应用场景

该研究成果可应用于各种需要语言模型处理复杂任务且人工监督质量受限的场景，例如自动代码生成、数学问题求解、安全指令遵循等。通过迭代优化训练数据，可以提升模型在这些领域的性能和可靠性，降低对高质量人工标注的依赖，具有重要的实际应用价值。

📄 摘要（原文）

Language model (LM) post-training relies on two stages of human supervision: task demonstrations for supervised finetuning (SFT), followed by preference comparisons for reinforcement learning from human feedback (RLHF). As LMs become more capable, the tasks they are given become harder to supervise. Will post-training remain effective under unreliable supervision? To test this, we simulate unreliable demonstrations and comparison feedback using small LMs and time-constrained humans. We find that in the presence of unreliable supervision, SFT still retains some effectiveness, but DPO (a common RLHF algorithm) fails to improve the model beyond SFT. To address this, we propose iterative label refinement (ILR) as an alternative to RLHF. ILR improves the SFT data by using comparison feedback to decide whether human demonstrations should be replaced by model-generated alternatives, then retrains the model via SFT on the updated data. SFT+ILR outperforms SFT+DPO on several tasks with unreliable supervision (math, coding, and safe instruction-following). Our findings suggest that as LMs are used for complex tasks where human supervision is unreliable, RLHF may no longer be the best use of human comparison feedback; instead, it is better to direct feedback towards improving the training data rather than continually training the model. Our code and data are available at https://github.com/helloelwin/iterative-label-refinement.

Iterative Label Refinement Matters More than Preference Optimization under Weak Supervision

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理