Robust Reinforcement Learning from Corrupted Human Feedback

作者: Alexander Bukharin, Ilgee Hong, Haoming Jiang, Zichong Li, Qingru Zhang, Zixuan Zhang, Tuo Zhao

分类: cs.LG

发布日期: 2024-06-21 (更新: 2024-07-09)

备注: 22 pages, 7 figures

💡 一句话要点

提出R³M方法，通过建模稀疏异常值，提升RLHF在含噪声人类反馈下的鲁棒性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 鲁棒学习 异常值检测 ℓ₁正则化

📋 核心要点

现有RLHF方法易受人类反馈中的噪声影响，导致学习到的奖励函数偏差。
R³M将错误标注建模为稀疏异常值，使用ℓ₁正则化最大似然估计进行鲁棒奖励学习。
实验表明，R³M在机器人控制和自然语言生成任务中，显著提升了对噪声反馈的鲁棒性。

📝 摘要（中文）

本文提出了一种鲁棒的基于人类反馈的强化学习方法（RLHF），称为R³M，旨在解决人类标注者可能因个人偏见、上下文模糊、缺乏训练等原因导致偏好标签不正确或不一致的问题。R³M将潜在的损坏偏好标签建模为稀疏异常值，并将鲁棒奖励学习形式化为一个带有ℓ₁正则化的最大似然估计问题。在计算上，开发了一种高效的交替优化算法，与标准RLHF方法相比，计算开销可忽略不计。理论上证明，在适当的正则性条件下，如果异常值标签的数量以低于偏好样本大小的速率增长，R³M可以一致地学习潜在奖励并识别异常值。此外，R³M具有通用性，可以扩展到各种偏好优化方法，包括直接偏好优化（DPO）。在机器人控制和使用大型语言模型（LLM）的自然语言生成方面的实验表明，R³M提高了奖励对偏好数据中几种类型扰动的鲁棒性。

🔬 方法详解

问题定义：现有的RLHF方法在处理包含噪声的人类反馈时表现不佳。由于标注者的主观性、认知偏差或任务理解不足，反馈数据中可能存在错误或不一致的偏好标签，这些噪声会严重影响奖励函数的学习，导致最终策略性能下降。因此，如何从受损的人类反馈中鲁棒地学习奖励函数是亟待解决的问题。

核心思路：R³M的核心思路是将错误的偏好标签视为稀疏的异常值。通过引入ℓ₁正则化项，鼓励模型将一部分偏好标签识别为异常值，从而降低这些标签对奖励函数学习的影响。这种方法假设大部分标签是正确的，只有少量标签是错误的，这在实际应用中通常是合理的。

技术框架：R³M的整体框架与标准的RLHF类似，主要包括以下几个阶段：1) 数据收集：收集包含人类偏好标签的数据集。2) 奖励学习：使用R³M方法，即带有ℓ₁正则化的最大似然估计，从偏好数据中学习奖励函数。3) 策略优化：使用学习到的奖励函数，通过强化学习算法（如PPO）优化策略。R³M的关键在于奖励学习阶段，通过交替优化算法求解ℓ₁正则化的最大似然估计问题。

关键创新：R³M最重要的创新在于其对噪声标签的建模方式和相应的优化算法。与传统的RLHF方法直接使用所有标签不同，R³M将错误标签建模为稀疏异常值，并通过ℓ₁正则化来识别和抑制这些异常值的影响。此外，R³M提出了一种高效的交替优化算法，可以在保证计算效率的同时，有效地求解ℓ₁正则化的优化问题。

关键设计：R³M的关键设计包括：1) ℓ₁正则化项：用于惩罚被识别为异常值的标签数量，控制模型的稀疏性。2) 交替优化算法：用于求解带有ℓ₁正则化的最大似然估计问题，包括更新奖励函数和更新异常值指示变量两个步骤。3) 损失函数：采用标准的二元交叉熵损失函数，用于衡量模型预测的偏好概率与实际标签之间的差异。4) 超参数：ℓ₁正则化系数λ控制了模型的稀疏性，需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

在机器人控制和自然语言生成任务上的实验结果表明，R³M能够显著提高对噪声反馈的鲁棒性。例如，在机器人控制任务中，当偏好标签中存在20%的噪声时，R³M的性能优于标准RLHF方法，并且与在干净数据上训练的RLHF方法性能相当。在自然语言生成任务中，R³M能够生成更符合人类偏好的文本，尤其是在存在对抗性噪声的情况下。

🎯 应用场景

R³M可广泛应用于需要从人类反馈中学习奖励函数的场景，例如机器人控制、自然语言生成、对话系统等。尤其是在标注数据质量不高或存在噪声的情况下，R³M能够显著提升学习的鲁棒性和性能。该方法有助于降低对高质量标注数据的依赖，从而降低AI系统的开发成本，并加速AI技术的落地应用。

📄 摘要（原文）

Reinforcement learning from human feedback (RLHF) provides a principled framework for aligning AI systems with human preference data. For various reasons, e.g., personal bias, context ambiguity, lack of training, etc, human annotators may give incorrect or inconsistent preference labels. To tackle this challenge, we propose a robust RLHF approach -- $R^3M$, which models the potentially corrupted preference label as sparse outliers. Accordingly, we formulate the robust reward learning as an $\ell_1$-regularized maximum likelihood estimation problem. Computationally, we develop an efficient alternating optimization algorithm, which only incurs negligible computational overhead compared with the standard RLHF approach. Theoretically, we prove that under proper regularity conditions, $R^3M$ can consistently learn the underlying reward and identify outliers, provided that the number of outlier labels scales sublinearly with the preference sample size. Furthermore, we remark that $R^3M$ is versatile and can be extended to various preference optimization methods, including direct preference optimization (DPO). Our experiments on robotic control and natural language generation with large language models (LLMs) show that $R^3M$ improves robustness of the reward against several types of perturbations to the preference data.

Robust Reinforcement Learning from Corrupted Human Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理