APPA: Adaptive Preference Pluralistic Alignment for Fair Federated RLHF of LLMs
作者: Mahmoud Srewa, Tianyu Zhao, Salma Elmalaki
分类: cs.LG, cs.AI
发布日期: 2026-04-07
💡 一句话要点
APPA:面向LLM公平联邦RLHF的自适应偏好多元对齐
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 强化学习 人类反馈 大型语言模型 公平性 偏好对齐 奖励聚合
📋 核心要点
- 现有FedRLHF方法在奖励聚合时面临困境,平均聚合忽略弱势群体,最小聚合牺牲整体性能。
- APPA通过动态调整群体奖励权重,优先提升对齐不足的群体,同时维持已对齐群体的性能。
- 实验表明,APPA在多个模型和数据集上,显著提升了最差群体的对齐效果,并保持了整体性能。
📝 摘要(中文)
为了使大型语言模型(LLM)与多样化的人类偏好对齐,需要多元对齐,即单个模型必须同时尊重多个不同群体的价值观。在基于人类反馈的联邦强化学习(FedRLHF)中,这些群体在不集中偏好数据的情况下对齐共享策略,这使得公平的奖励聚合至关重要。现有的聚合方法表现出明显的权衡:基于平均的聚合系统性地使表现最差的群体对齐不足,而最小聚合以牺牲整体对齐为代价优先考虑最差群体的表现。我们提出了APPA,一种自适应偏好多元对齐框架,该框架基于历史对齐奖励动态地重新加权群体级别的奖励。我们的方法在不降低良好对齐的群体性能的同时,优先考虑对齐不足的群体,并且不需要访问原始偏好数据。APPA集成到基于近端策略优化(PPO)的FedRLHF流程中,并在GLOBALQA和OQA上针对三个模型系列(Gemma 2 2B、Llama 3.2 3B、Qwen3 0.6B)进行了评估,实现了强大的公平性对齐权衡,与平均聚合相比,最差群体对齐提高了高达28%,同时在大多数配置中保持了比最小聚合更高的整体对齐。
🔬 方法详解
问题定义:论文旨在解决联邦强化学习中,如何公平地对齐大型语言模型(LLM)与多个具有不同偏好的人群。现有方法,如平均聚合,会导致对齐效果差的群体进一步被忽略;而最小聚合虽然关注了最差群体,却牺牲了整体的对齐性能。因此,如何在保证整体性能的同时,提升弱势群体的对齐效果,是本论文要解决的核心问题。
核心思路:APPA的核心思路是自适应地调整不同群体的奖励权重。它基于每个群体历史的对齐奖励,动态地重新分配权重,使得对齐效果差的群体获得更高的权重,从而在训练过程中得到更多的关注。这种动态调整的策略,旨在平衡不同群体之间的对齐程度,实现更公平的整体对齐效果。
技术框架:APPA框架主要包含以下几个阶段:1) 各个联邦客户端使用本地数据进行强化学习训练,生成局部策略;2) 将局部策略的更新信息发送到中心服务器;3) 中心服务器根据各个群体的历史对齐奖励,计算新的奖励权重;4) 使用新的奖励权重聚合各个客户端的更新信息,更新全局策略;5) 将全局策略分发回各个客户端,进行下一轮训练。整个过程循环迭代,直到模型收敛。
关键创新:APPA的关键创新在于其自适应的奖励权重调整机制。与传统的静态权重分配方法不同,APPA能够根据每个群体的实际对齐情况,动态地调整权重。这种自适应性使得模型能够更好地关注对齐效果差的群体,从而提升整体的公平性。此外,APPA不需要访问原始的偏好数据,保护了用户隐私。
关键设计:APPA使用历史对齐奖励来计算奖励权重。具体来说,它使用一个滑动平均窗口来记录每个群体的历史奖励,并根据这些历史奖励计算一个权重系数。权重系数与历史奖励成反比,即历史奖励越低,权重系数越高。此外,为了避免权重系数过大或过小,APPA还对权重系数进行了归一化处理。具体的损失函数和网络结构与标准的PPO算法保持一致。
🖼️ 关键图片
📊 实验亮点
实验结果表明,APPA在GLOBALQA和OQA数据集上,针对Gemma 2 2B、Llama 3.2 3B和Qwen3 0.6B三个模型,显著提升了最差群体的对齐效果。与平均聚合相比,APPA在最差群体上的对齐效果提升了高达28%,同时在大多数配置中保持了比最小聚合更高的整体对齐性能。这些结果验证了APPA在公平性和整体性能之间的良好权衡。
🎯 应用场景
APPA框架可应用于各种需要公平对齐的联邦学习场景,例如个性化推荐系统、医疗诊断辅助系统等。通过提升弱势群体的模型性能,可以避免算法歧视,提高用户满意度,并促进社会公平。未来,该方法有望扩展到更复杂的联邦学习环境,例如异构数据和非独立同分布数据。
📄 摘要(原文)
Aligning large language models (LLMs) with diverse human preferences requires pluralistic alignment, where a single model must respect the values of multiple distinct groups simultaneously. In federated reinforcement learning from human feedback (FedRLHF), these groups align a shared policy without centralizing preference data, which makes fair reward aggregation essential. Existing aggregation methods exhibit clear trade offs: average based aggregation systematically under aligns worst performing groups, while min aggregation prioritizes worst group performance at the cost of overall alignment. We propose APPA, an Adaptive Preference Pluralistic Alignment framework that dynamically reweights group level rewards based on historical alignment rewards. Our approach prioritizes under aligned groups without degrading well aligned ones, while requiring no access to raw preference data. Integrated into a proximal policy optimization (PPO) based FedRLHF pipeline and evaluated on GLOBALQA and OQA across three model families (Gemma 2 2B, Llama 3.2 3B, Qwen3 0.6B), APPA achieves strong fairness alignment trade offs, improving worst group alignment by up to 28% over average aggregation while maintaining higher overall alignment than min aggregation across most configurations.