Curiosity-Driven Reinforcement Learning from Human Feedback

作者: Haoran Sun, Yekun Chai, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang

分类: cs.CL

发布日期: 2025-01-20 (更新: 2025-05-31)

备注: ACL 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出好奇心驱动的RLHF框架，提升LLM输出多样性并保持对齐质量

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 人类反馈 大型语言模型 好奇心驱动 输出多样性

📋 核心要点

RLHF在对齐LLM与人类偏好方面有效，但常牺牲输出多样性，多样性与对齐质量的权衡是挑战。
CD-RLHF引入内在奖励，鼓励探索新颖状态，与外部奖励结合，优化LLM的输出多样性和对齐质量。
实验表明，CD-RLHF在文本摘要和指令遵循任务中，显著提升了输出多样性，同时保持了对齐质量。

📝 摘要（中文）

本文提出了一种好奇心驱动的RLHF（CD-RLHF）框架，旨在解决强化学习从人类反馈（RLHF）中，大型语言模型（LLM）在与人类偏好对齐时，输出多样性降低的问题。CD-RLHF借鉴了强化学习中好奇心驱动探索的思想，在传统的稀疏外部奖励之外，引入了针对新颖状态的内在奖励，从而优化输出的多样性和对齐质量。通过在文本摘要和指令遵循等任务上的大量实验，证明了CD-RLHF的有效性。该方法在多个面向多样性的指标上取得了显著的提升，同时保持了与标准RLHF相当的对人类偏好的对齐程度。代码已公开。

🔬 方法详解

问题定义：现有RLHF方法在追求与人类偏好对齐的同时，往往会牺牲生成内容的多样性，导致模型倾向于生成重复、保守的回复。这种多样性不足限制了LLM的创造性和实用性，尤其是在需要丰富和创新性输出的场景下。因此，如何平衡对齐质量和输出多样性是当前RLHF面临的一个重要挑战。

核心思路：CD-RLHF的核心思路是借鉴强化学习中好奇心驱动探索的思想，通过引入内在奖励来鼓励模型探索未知的状态空间，从而增加生成内容的多样性。内在奖励的设计基于对模型生成状态的新颖性评估，鼓励模型生成与之前生成内容不同的输出。同时，保留外部奖励以保证生成内容与人类偏好对齐。

技术框架：CD-RLHF的整体框架与标准的RLHF类似，主要包括以下几个阶段：1) 使用预训练的LLM生成文本；2) 使用奖励模型评估生成文本的质量（包括对齐质量和新颖性）；3) 使用强化学习算法（如PPO）优化LLM的策略，目标是最大化奖励（外部奖励+内在奖励）。关键在于奖励模型的设计，它需要能够准确评估生成文本的对齐质量和新颖性。

关键创新：CD-RLHF最重要的创新点在于引入了好奇心驱动的内在奖励机制，该机制能够有效地鼓励模型探索未知的状态空间，从而增加生成内容的多样性。与传统的RLHF方法相比，CD-RLHF不再仅仅依赖于人类反馈提供的外部奖励，而是通过内在奖励来引导模型的探索行为，从而更好地平衡对齐质量和输出多样性。

关键设计：内在奖励的设计通常基于信息增益或预测误差等指标。例如，可以使用模型预测下一个token的概率分布与实际token的概率分布之间的差异（如KL散度）来衡量状态的新颖性。外部奖励则通常由人工标注或预训练的奖励模型提供，用于评估生成内容与人类偏好的对齐程度。内在奖励和外部奖励的权重需要仔细调整，以平衡多样性和对齐质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CD-RLHF在文本摘要和指令遵循任务中，显著提升了输出多样性。在多个多样性指标上，CD-RLHF取得了显著的提升，同时保持了与标准RLHF相当的对人类偏好的对齐程度。具体数据需要在论文中查找，但总体趋势是CD-RLHF在多样性方面优于基线方法，且对齐质量没有明显下降。

🎯 应用场景

CD-RLHF可应用于各种需要LLM生成多样化内容的场景，如创意写作、对话生成、文本摘要等。通过提升LLM的创造性和探索能力，CD-RLHF可以帮助LLM更好地满足用户的需求，并拓展LLM的应用范围。例如，在对话系统中，CD-RLHF可以使LLM生成更具个性化和创新性的回复，从而提升用户体验。

📄 摘要（原文）

Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences, but often at the cost of reduced output diversity. This trade-off between diversity and alignment quality remains a significant challenge. Drawing inspiration from curiosity-driven exploration in reinforcement learning, we introduce curiosity-driven RLHF (CD-RLHF), a framework that incorporates intrinsic rewards for novel states, alongside traditional sparse extrinsic rewards, to optimize both output diversity and alignment quality. We demonstrate the effectiveness of CD-RLHF through extensive experiments on a range of tasks, including text summarization and instruction following. Our approach achieves significant gains in diversity on multiple diversity-oriented metrics while maintaining alignment with human preferences comparable to standard RLHF. We make our code publicly available at https://github.com/ernie-research/CD-RLHF.

Curiosity-Driven Reinforcement Learning from Human Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理