Federated Fine-Tuning of Large Language Models: Kahneman-Tversky vs. Direct Preference Optimization
作者: Fernando Spadea, Oshani Seneviratne
分类: cs.LG, cs.CL
发布日期: 2025-02-20
💡 一句话要点
联邦学习中KTO优于DPO微调大型语言模型,尤其在单响应反馈场景下
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 大型语言模型 微调 Kahneman-Tversky优化 直接偏好优化 单响应反馈 隐私保护 去中心化
📋 核心要点
- 现有联邦学习中大型语言模型微调方法,如DPO,依赖成对反馈,限制了其在单响应反馈场景的应用。
- 论文提出使用Kahneman-Tversky优化(KTO)作为联邦学习中LLM的微调方法,KTO能有效处理单响应反馈。
- 实验结果表明,KTO在各种基准测试中始终优于DPO,尤其是在重新分配的数据集设置中,KTO展现出更强的适应性。
📝 摘要(中文)
本文评估了Kahneman-Tversky优化(KTO)作为联邦学习(FL)环境中大型语言模型(LLM)微调方法的效果,并将其与直接偏好优化(DPO)进行了比较。使用Alpaca-7B作为基础模型,在真实数据集上使用两种方法进行微调,并使用MT-Bench-1、Vicuna和AdvBench基准评估性能。此外,我们引入了一种重新分配的数据集设置,其中只有KTO适用,因为它能够处理单响应反馈,而DPO依赖于成对响应。结果表明,KTO在其原始(KTOO)和重新分配(KTOR)配置中,始终优于所有基准测试中的DPO。在重新分配的设置中,KTO通过在DPO无法应用的场景中保持卓越的性能,进一步验证了其灵活性和弹性。这些发现确立了KTO作为一种稳健且可扩展的FL微调方法,推动了其在保护隐私、去中心化和异构环境中的应用。
🔬 方法详解
问题定义:联邦学习场景下,如何有效地微调大型语言模型,尤其是在数据分布不均匀且只能获取单响应反馈的情况下?现有方法,如DPO,需要成对的偏好数据,无法直接应用于单响应反馈的场景,限制了其适用性。
核心思路:论文的核心思路是利用Kahneman-Tversky优化(KTO)来解决联邦学习中LLM的微调问题,特别是针对单响应反馈的情况。KTO通过直接优化模型输出的奖励,而不需要成对的偏好数据,从而能够处理单响应反馈的场景。这种设计使得KTO在数据受限或难以获取成对偏好数据的联邦学习环境中更具优势。
技术框架:整体框架包括以下几个主要步骤:1) 在联邦学习环境中,每个客户端使用本地数据对LLM进行KTO微调;2) 将微调后的模型参数上传到中心服务器;3) 中心服务器对接收到的模型参数进行聚合,得到全局模型;4) 将全局模型分发回各个客户端,进行下一轮的微调。在重新分配的数据集设置中,只有KTO适用,因为DPO需要成对响应。
关键创新:最重要的技术创新点在于将KTO应用于联邦学习中的LLM微调,并验证了其在单响应反馈场景下的有效性。与DPO相比,KTO不需要成对的偏好数据,因此更适用于数据受限或难以获取成对偏好数据的联邦学习环境。此外,论文还提出了重新分配的数据集设置,进一步验证了KTO的灵活性和适应性。
关键设计:KTO的目标是最大化模型输出的奖励。具体来说,KTO使用以下损失函数:loss = -log(sigmoid(reward)), 其中reward是模型输出的奖励值。在实验中,使用Alpaca-7B作为基础模型,并使用MT-Bench-1、Vicuna和AdvBench基准评估性能。KTO的原始配置(KTOO)和重新分配配置(KTOR)都进行了实验,以验证其在不同场景下的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KTO在所有基准测试中始终优于DPO。在重新分配的数据集设置中,KTO进一步验证了其灵活性和弹性,在DPO无法应用的场景中保持卓越的性能。具体而言,KTO在MT-Bench-1、Vicuna和AdvBench等基准测试中均取得了显著的性能提升,证明了其作为联邦学习中LLM微调方法的有效性。
🎯 应用场景
该研究成果可应用于各种隐私保护、去中心化和异构的联邦学习环境,例如医疗健康、金融服务和智能交通等领域。通过使用KTO进行LLM的微调,可以在保护用户数据隐私的同时,提升LLM在特定任务上的性能,从而为用户提供更优质的服务。
📄 摘要(原文)
We evaluate Kahneman-Tversky Optimization (KTO) as a fine-tuning method for large language models (LLMs) in federated learning (FL) settings, comparing it against Direct Preference Optimization (DPO). Using Alpaca-7B as the base model, we fine-tune on a realistic dataset under both methods and evaluate performance using MT-Bench-1, Vicuna, and AdvBench benchmarks. Additionally, we introduce a redistributed dataset setup, where only KTO is applicable due to its ability to handle single-response feedback, unlike DPO's reliance on paired responses. Our results demonstrate that KTO, in both its original (KTOO) and redistributed (KTOR) configurations, consistently outperforms DPO across all benchmarks. In the redistributed setup, KTO further validates its flexibility and resilience by maintaining superior performance in scenarios where DPO cannot be applied. These findings establish KTO as a robust and scalable fine-tuning method for FL, motivating its adoption for privacy-preserving, decentralized, and heterogeneous environments.