Curiosity-Driven Reinforcement Learning from Human Feedback
作者: Haoran Sun, Yekun Chai, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang
分类: cs.CL
发布日期: 2025-01-20 (更新: 2025-05-31)
备注: ACL 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出好奇心驱动的RLHF框架,提升LLM输出多样性并保持对齐质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 人类反馈 大型语言模型 好奇心驱动 输出多样性
📋 核心要点
- RLHF在对齐LLM与人类偏好方面有效,但常牺牲输出多样性,多样性与对齐质量的权衡是挑战。
- CD-RLHF引入内在奖励,鼓励探索新颖状态,与外部奖励结合,优化LLM的输出多样性和对齐质量。
- 实验表明,CD-RLHF在文本摘要和指令遵循任务中,显著提升了输出多样性,同时保持了对齐质量。
📝 摘要(中文)
本文提出了一种好奇心驱动的RLHF(CD-RLHF)框架,旨在解决强化学习从人类反馈(RLHF)中,大型语言模型(LLM)在与人类偏好对齐时,输出多样性降低的问题。CD-RLHF借鉴了强化学习中好奇心驱动探索的思想,在传统的稀疏外部奖励之外,引入了针对新颖状态的内在奖励,从而优化输出的多样性和对齐质量。通过在文本摘要和指令遵循等任务上的大量实验,证明了CD-RLHF的有效性。该方法在多个面向多样性的指标上取得了显著的提升,同时保持了与标准RLHF相当的对人类偏好的对齐程度。代码已公开。
🔬 方法详解
问题定义:现有RLHF方法在追求与人类偏好对齐的同时,往往会牺牲生成内容的多样性,导致模型倾向于生成重复、保守的回复。这种多样性不足限制了LLM的创造性和实用性,尤其是在需要丰富和创新性输出的场景下。因此,如何平衡对齐质量和输出多样性是当前RLHF面临的一个重要挑战。
核心思路:CD-RLHF的核心思路是借鉴强化学习中好奇心驱动探索的思想,通过引入内在奖励来鼓励模型探索未知的状态空间,从而增加生成内容的多样性。内在奖励的设计基于对模型生成状态的新颖性评估,鼓励模型生成与之前生成内容不同的输出。同时,保留外部奖励以保证生成内容与人类偏好对齐。
技术框架:CD-RLHF的整体框架与标准的RLHF类似,主要包括以下几个阶段:1) 使用预训练的LLM生成文本;2) 使用奖励模型评估生成文本的质量(包括对齐质量和新颖性);3) 使用强化学习算法(如PPO)优化LLM的策略,目标是最大化奖励(外部奖励+内在奖励)。关键在于奖励模型的设计,它需要能够准确评估生成文本的对齐质量和新颖性。
关键创新:CD-RLHF最重要的创新点在于引入了好奇心驱动的内在奖励机制,该机制能够有效地鼓励模型探索未知的状态空间,从而增加生成内容的多样性。与传统的RLHF方法相比,CD-RLHF不再仅仅依赖于人类反馈提供的外部奖励,而是通过内在奖励来引导模型的探索行为,从而更好地平衡对齐质量和输出多样性。
关键设计:内在奖励的设计通常基于信息增益或预测误差等指标。例如,可以使用模型预测下一个token的概率分布与实际token的概率分布之间的差异(如KL散度)来衡量状态的新颖性。外部奖励则通常由人工标注或预训练的奖励模型提供,用于评估生成内容与人类偏好的对齐程度。内在奖励和外部奖励的权重需要仔细调整,以平衡多样性和对齐质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CD-RLHF在文本摘要和指令遵循任务中,显著提升了输出多样性。在多个多样性指标上,CD-RLHF取得了显著的提升,同时保持了与标准RLHF相当的对人类偏好的对齐程度。具体数据需要在论文中查找,但总体趋势是CD-RLHF在多样性方面优于基线方法,且对齐质量没有明显下降。
🎯 应用场景
CD-RLHF可应用于各种需要LLM生成多样化内容的场景,如创意写作、对话生成、文本摘要等。通过提升LLM的创造性和探索能力,CD-RLHF可以帮助LLM更好地满足用户的需求,并拓展LLM的应用范围。例如,在对话系统中,CD-RLHF可以使LLM生成更具个性化和创新性的回复,从而提升用户体验。
📄 摘要(原文)
Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models (LLMs) with human preferences, but often at the cost of reduced output diversity. This trade-off between diversity and alignment quality remains a significant challenge. Drawing inspiration from curiosity-driven exploration in reinforcement learning, we introduce curiosity-driven RLHF (CD-RLHF), a framework that incorporates intrinsic rewards for novel states, alongside traditional sparse extrinsic rewards, to optimize both output diversity and alignment quality. We demonstrate the effectiveness of CD-RLHF through extensive experiments on a range of tasks, including text summarization and instruction following. Our approach achieves significant gains in diversity on multiple diversity-oriented metrics while maintaining alignment with human preferences comparable to standard RLHF. We make our code publicly available at https://github.com/ernie-research/CD-RLHF.