Towards Federated RLHF with Aggregated Client Preference for LLMs

作者: Feijie Wu, Xiaoze Liu, Haoyu Wang, Xingchen Wang, Lu Su, Jing Gao

分类: cs.CL, cs.DC, cs.LG

发布日期: 2024-07-03 (更新: 2025-04-08)

备注: ICLR'25

💡 一句话要点

提出FedBis和FedBiscuit，用于联邦RLHF训练LLM，解决用户隐私下的偏好学习问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 强化学习 人类反馈 大型语言模型 隐私保护

📋 核心要点

现有RLHF方法需要用户共享敏感偏好数据，存在隐私泄露风险，阻碍了大规模应用。
提出联邦RLHF方法FedBis和FedBiscuit，通过聚合客户端的二元偏好选择器，实现隐私保护的偏好学习。
实验表明，FedBis和FedBiscuit能有效提升LLM生成内容的专业性和可读性，验证了方法的有效性。

📝 摘要（中文）

本文提出利用联邦学习（FL）技术，在保护用户隐私的前提下，从大量真实用户处收集偏好数据，从而对大型语言模型（LLM）进行基于人类反馈的强化学习（RLHF）微调。提出的联邦RLHF方法（即FedBis和FedBiscuit）将每个客户端的偏好编码为二元选择器，并聚合这些选择器以捕获共同偏好。FedBiscuit通过分组具有相似偏好的客户端来减少异质性，并使用多个二元选择器来提高LLM输出质量，从而克服了偏好异质性和奖励黑客等关键挑战。建立了第一个具有异构人类偏好数据集的联邦RLHF基准来评估所提出方法的性能。实验结果表明，通过将LLM与聚合的客户端偏好集成，FedBis和FedBiscuit显著提高了生成内容的专业性和可读性。

🔬 方法详解

问题定义：现有RLHF方法依赖于集中式的数据收集，用户需要将自己的偏好数据上传到中心服务器，这引发了严重的隐私问题，尤其是在涉及敏感信息时。不同用户的偏好可能存在显著差异（偏好异质性），直接聚合可能导致模型性能下降。此外，模型容易受到奖励黑客的影响，即模型为了获得更高的奖励而生成不符合人类期望的内容。

核心思路：本文的核心思路是利用联邦学习，在不共享原始用户数据的前提下，聚合多个客户端的偏好信息，训练一个全局的LLM。通过将每个客户端的偏好编码为二元选择器，并在服务器端聚合这些选择器，可以有效地学习到共同的偏好，同时保护用户隐私。针对偏好异质性和奖励黑客问题，提出了相应的解决方案。

技术框架：整体框架包括以下几个主要阶段：1) 客户端训练：每个客户端使用本地数据训练一个二元选择器，该选择器用于对LLM生成的不同候选回复进行排序。2) 服务器聚合：服务器收集来自所有客户端的二元选择器，并使用特定的聚合算法（例如，FedAvg的变体）将它们合并成一个全局的偏好模型。3) LLM微调：使用聚合后的偏好模型来微调LLM，使其能够生成更符合人类偏好的内容。FedBiscuit在FedBis的基础上增加了客户端分组机制。

关键创新：主要创新点包括：1) 基于二元选择器的偏好编码：将用户偏好转化为二元选择器，便于联邦聚合，同时保护用户隐私。2) 客户端分组机制（FedBiscuit）：将具有相似偏好的客户端分组，减少偏好异质性，提高模型性能。3) 多二元选择器（FedBiscuit）：使用多个二元选择器来增强LLM输出质量，缓解奖励黑客问题。

关键设计：客户端分组：使用聚类算法（例如，k-means）将客户端根据其偏好相似度进行分组。聚合算法：采用FedAvg的变体，对二元选择器进行加权平均。损失函数：使用pairwise ranking loss来训练二元选择器，鼓励模型对更符合人类偏好的回复给予更高的评分。奖励函数：使用聚合后的偏好模型对LLM生成的回复进行评分，作为强化学习的奖励信号。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FedBis和FedBiscuit在联邦RLHF基准测试中显著提高了LLM生成内容的专业性和可读性。与基线方法相比，FedBiscuit在多个指标上取得了明显的提升，证明了其在处理偏好异质性和奖励黑客方面的有效性。具体性能数据（例如，专业性和可读性的提升幅度）在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于各种需要个性化内容生成的场景，例如智能客服、内容推荐、对话机器人等。通过联邦学习，可以在保护用户隐私的前提下，利用大规模用户偏好数据来提升LLM的性能，从而提供更优质、更符合用户需求的服务。未来，该技术有望在医疗、金融等敏感数据领域发挥重要作用。

📄 摘要（原文）

Reinforcement learning with human feedback (RLHF) fine-tunes a pretrained large language model (LLM) using user preference data, enabling it to generate content aligned with human preferences. However, due to privacy concerns, users may be reluctant to share sensitive preference data. To address this, we propose utilizing Federated Learning (FL) techniques, allowing large-scale preference collection from diverse real-world users without requiring them to transmit data to a central server. Our federated RLHF methods (i.e., FedBis and FedBiscuit) encode each client's preferences into binary selectors and aggregate them to capture common preferences. In particular, FedBiscuit overcomes key challenges, such as preference heterogeneity and reward hacking, through innovative solutions like grouping clients with similar preferences to reduce heterogeneity and using multiple binary selectors to enhance LLM output quality. To evaluate the performance of the proposed methods, we establish the first federated RLHF benchmark with a heterogeneous human preference dataset. Experimental results show that by integrating the LLM with aggregated client preferences, FedBis and FedBiscuit significantly enhance the professionalism and readability of the generated content.

Towards Federated RLHF with Aggregated Client Preference for LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理