FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment

作者: Kewen Zhu, Liping Yi, Zhiming Zhao, Zhuang Qi, Han Yu, Qinghua Hu

分类: cs.LG, cs.CL

发布日期: 2026-03-20

备注: under review

💡 一句话要点

提出FedPDPO，解决联邦学习中大语言模型个性化偏好对齐问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 大语言模型 偏好对齐 个性化 直接偏好优化

📋 核心要点

联邦学习中对齐大语言模型与人类偏好面临数据分散、隐私敏感和非独立同分布的挑战。
FedPDPO通过参数高效微调、全局共享LoRA适配器和个性化DPO训练策略来解决非独立同分布问题。
实验结果表明，FedPDPO在多个偏好数据集上取得了显著的性能提升，平均准确率提升高达4.80%。

📝 摘要（中文）

本文提出了一种联邦个性化直接偏好优化（FedPDPO）框架，用于解决联邦学习（FL）中大语言模型（LLM）与人类偏好对齐的挑战。由于偏好数据分散、隐私敏感且高度非独立同分布（non-IID），直接偏好优化（DPO）在联邦学习中的直接应用会因非独立同分布数据和隐式奖励泛化能力有限而导致严重的性能下降。FedPDPO采用参数高效的微调架构，每个客户端维护一个冻结的预训练LLM骨干网络，并附加一个低秩适应（LoRA）适配器，从而实现通信高效的聚合。为了解决非独立同分布异构性，设计了(1)全局共享的LoRA适配器和个性化的客户端特定LLM头部；(2)个性化的DPO训练策略，使用客户端特定的显式奖励头部来补充隐式奖励，进一步缓解非独立同分布异构性；(3)瓶颈适配器来平衡全局和局部特征。论文提供了理论分析，建立了概率基础和合理性。在多个偏好数据集上的大量实验表明，该方法达到了最先进的性能，在联邦域内和跨域设置中实现了高达4.80%的平均准确率提升。

🔬 方法详解

问题定义：论文旨在解决联邦学习场景下，如何使大语言模型更好地对齐不同用户的个性化偏好。现有方法直接应用DPO时，由于联邦学习中数据的非独立同分布特性，以及隐式奖励的泛化能力不足，导致模型性能显著下降。

核心思路：核心思路是结合参数高效微调和个性化训练策略，在联邦学习框架下实现对大语言模型的偏好对齐。通过共享全局知识和保留客户端个性化特征，缓解非独立同分布数据带来的影响。

技术框架：FedPDPO框架包含以下几个主要模块：1) 冻结的预训练LLM骨干网络，每个客户端都有一份；2) 全局共享的LoRA适配器，用于学习全局知识；3) 客户端特定的LLM头部，用于捕捉个性化特征；4) 客户端特定的显式奖励头部，用于个性化DPO训练；5) 瓶颈适配器，用于平衡全局和局部特征。训练流程包括本地训练和全局聚合两个阶段。

关键创新：关键创新在于结合了参数高效微调和个性化训练策略，具体体现在：1) 全局共享LoRA适配器与个性化客户端头部相结合，平衡了全局知识和个性化特征；2) 引入客户端特定的显式奖励头部，补充了隐式奖励，缓解了非独立同分布异构性；3) 瓶颈适配器的设计，进一步平衡了全局和局部特征。

关键设计：1) 使用LoRA进行参数高效微调，降低通信成本；2) 设计客户端特定的显式奖励头部，用于个性化DPO训练，损失函数基于DPO损失进行修改，以适应个性化奖励；3) 瓶颈适配器的结构和维度选择，需要在全局和局部特征之间进行权衡，具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FedPDPO在多个偏好数据集上取得了显著的性能提升，在联邦域内和跨域设置中实现了高达4.80%的平均准确率提升。相较于直接应用DPO的联邦学习方法，FedPDPO能够更好地适应非独立同分布数据，并有效提升模型的泛化能力。

🎯 应用场景

FedPDPO可应用于各种需要个性化偏好对齐的联邦学习场景，例如个性化推荐系统、医疗诊断辅助、金融风控等。通过保护用户隐私的同时，提升大语言模型在特定领域的性能和用户满意度，具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要（原文）

Aligning large language models (LLMs) with human preferences in federated learning (FL) is challenging due to decentralized, privacy-sensitive, and highly non-IID preference data. Direct Preference Optimization (DPO) offers an efficient alternative to reinforcement learning with human feedback (RLHF), but its direct application in FL suffers from severe performance degradation under non-IID data and limited generalization of implicit rewards. To bridge this gap, we propose FedPDPO (Federated Personalized Direct Preference Optimization), a personalized federated framework for preference alignment of LLMs. It adopts a parameter-efficient fine-tuning architecture where each client maintains a frozen pretrained LLM backbone augmented with a Low-Rank Adaptation (LoRA) adapter, enabling communication-efficient aggregation. To address non-IID heterogeneity, we devise (1) the globally shared LoRA adapter with the personalized client-specific LLM head. Moreover, we introduce (2) a personalized DPO training strategy with a client-specific explicit reward head to complement implicit rewards and further alleviate non-IID heterogeneity, and (3) a bottleneck adapter to balance global and local features. We provide theoretical analysis establishing the probabilistic foundation and soundness. Extensive experiments on multiple preference datasets demonstrate state-of-the-art performance, achieving up to 4.80% average accuracy improvements in federated intra-domain and cross-domain settings.

FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理