Self-Play Enhancement via Advantage-Weighted Refinement in Online Federated LLM Fine-Tuning with Real-Time Feedback

📄 arXiv: 2605.07977v1 📥 PDF

作者: Seohyun Lee, Wenzhi Fang, Dong-Jun Han, Seyyedali Hosseinalipour, Christopher G. Brinton

分类: cs.LG

发布日期: 2026-05-08

备注: 27 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出SPEAR算法,通过优势加权细化实现联邦学习环境下的在线大模型自博弈微调

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 大模型微调 自博弈 在线学习 对比学习 边缘计算 非似然训练

📋 核心要点

  1. 现有反馈学习方法依赖离线处理与地面真值,且缺乏对联邦学习场景下资源受限边缘设备的适配性。
  2. SPEAR通过反馈引导的自博弈循环,构建对比对并结合极大似然与置信度加权非似然损失进行在线优化。
  3. 实验证明SPEAR在无需昂贵生成与真值的情况下,在多个基准测试中表现优于现有最先进的基线模型。

📝 摘要(中文)

近期研究推动了基于反馈的学习系统,使基础模型能够通过用户反馈实现自我改进。然而,现有方法多局限于离线设置,且依赖于特权地面真值(Ground-truth)上下文。此外,针对联邦学习(FL)的探索尚显不足,而FL在处理大规模终端用户反馈方面具有天然优势,但需解决边缘设备资源受限的问题。为此,本文提出了SPEAR(通过优势加权细化进行自博弈增强),这是一种用于联邦大模型微调的高效在线学习算法。SPEAR利用反馈引导的自博弈循环,为每个提示构建对比对,并结合对正确补全的极大似然估计与对错误补全尾部标记的置信度加权非似然训练。与现有方法相比,SPEAR无需昂贵的群体生成和地面真值,仅需部分非答案反馈即可实现资源高效的在线训练。实验表明,SPEAR在多个基准测试中均优于当前最先进的基线方法。

🔬 方法详解

问题定义:论文旨在解决联邦学习环境下大模型微调的在线化与资源高效性问题。现有方法痛点在于过度依赖离线训练、需要昂贵的地面真值标注,且未充分考虑边缘计算场景下的通信与计算约束。

核心思路:SPEAR引入自博弈(Self-Play)机制,将用户反馈转化为对比学习信号。通过对模型生成的补全结果进行实时评估,构建正负样本对,从而在无需外部真值的情况下引导模型向更优方向演进。

技术框架:整体架构基于联邦学习框架,包含本地模型更新与全局聚合。核心流程为:模型基于提示生成补全,利用实时反馈进行评分,构建对比对,随后在本地执行优势加权细化训练,最后通过联邦聚合更新全局参数。

关键创新:最重要的创新在于“反馈引导的自博弈循环”,它将非答案反馈转化为对比学习信号,并结合了置信度加权非似然(Confidence-weighted Unlikelihood)训练,有效抑制了错误补全的生成,同时降低了对计算资源的依赖。

关键设计:算法采用了双重损失函数:一是针对正确补全的极大似然估计(MLE),二是针对错误补全尾部标记的置信度加权非似然损失。这种设计使得模型能够从部分反馈中高效学习,避免了大规模群体生成的开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPEAR在多个主流基准数据集上进行了验证,结果显示其在无需地面真值的情况下,显著提升了模型在下游任务中的准确率。相比于现有的在线微调基线,SPEAR在保持极低计算开销的同时,展现了更强的收敛速度与泛化性能,证明了其在资源受限环境下的优越性。

🎯 应用场景

该研究适用于大规模分布式边缘计算场景,如智能手机、物联网设备上的个性化大模型部署。其无需真值反馈的特性,使其在实时用户交互、隐私敏感的个性化推荐、以及动态环境下的模型持续学习中具有极高的应用价值与商业潜力。

📄 摘要(原文)

Recent works have advanced feedback-based learning systems, whereby a foundation model is able to intake incoming feedback (e.g., a user) to self-improve, creating a self-loop system of training. However, existing works are limited in needing to consider an offline setup to allow for such feedback-based methods, and are further limited in the need of requiring privileged ground-truth contexts for training. Moreover, there is limited consideration of federated learning (FL), which is particularly well-suited for incorporating external feedback across large networks of end users, for example, but requires methods to be efficient for training on resource-constrained edge devices. Therefore, we introduce SPEAR (Self-Play Enhancement via Advantage-Weighted Refinement), an efficient online learning algorithm for federated LLM fine-tuning. SPEAR utilizes a feedback-guided self-play loop to construct naturally contrastive pairs per prompt which are utilized to be trained on (i) standard maximum likelihood on correct completions and (ii) confidence-weighted unlikelihood on tail tokens of incorrect completions. Without the need of expensive group generations and ground-truth contexts for training (i.e., only partial, non-answer feedback), in contrast with existing works, SPEAR can be trained both online and in a resource-efficient manner. We validate SPEAR across various benchmark datasets, demonstrating its superior performance in comparison to state-of-the-art baselines. The implementation code is publicly available at https://github.com/lee3296/SPEAR.