Beyond Parameter Aggregation: Semantic Consensus for Federated Fine-Tuning of LLMs

作者: Amr Abourayya, Jens Kleesiek, Michael Kamp

分类: cs.LG

发布日期: 2026-05-12

💡 一句话要点

提出基于语义共识的联邦LLM微调方法，大幅降低通信成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 大型语言模型 微调 语义共识 异构模型

📋 核心要点

现有联邦LLM微调方法依赖参数聚合，通信成本高昂，且对模型架构有严格要求。
论文提出基于语义共识的联邦微调方法，通过交换模型在公共提示上的输出来实现协作。
实验表明，该方法在保证性能的同时，显著降低了通信成本，并适用于异构模型架构。

📝 摘要（中文）

联邦微调大型语言模型通常被视为参数聚合问题。然而，即使是参数高效的方法也需要传输大量的可训练权重，假设对齐的架构，并依赖于对模型参数的白盒访问。随着模型规模持续增长和部署变得越来越异构，这些假设与实际约束越来越不符。本文考虑了一种替代方案，其中协作通过模型行为而非参数来调节。客户端在私有数据上微调本地模型，并在共享的公共提示集上交换生成的输出。服务器将这些输出映射到语义表示空间，形成每个提示的语义共识，并返回伪标签以供进一步的本地微调。这种方案从根本上改变了联邦LLM微调的通信规模。交换的信息量仅取决于公共提示预算和通信行为的大小，与模型大小无关。因此，该协议自然地适应异构架构，并直接应用于开放式文本生成。理论分析和实验结果表明，该方法可以匹配强大的联邦微调基线，同时显著降低通信量（例如，对于Llama3.1-405B，分析上降低了1006倍），以及运行时和能源消耗。这些结果表明，对于生成式基础模型，行为级别的共识比参数聚合提供了更适合联邦适应的抽象。

🔬 方法详解

问题定义：联邦学习中对大型语言模型进行微调时，传统方法依赖于参数聚合，这导致了巨大的通信开销，尤其是在模型规模日益增长的情况下。此外，这些方法通常假设客户端拥有相同的模型架构，并且可以访问模型的内部参数（白盒访问），这在实际部署中可能难以满足。因此，如何在异构模型架构下，以更低的通信成本实现联邦LLM微调是一个关键问题。

核心思路：本文的核心思路是将联邦学习的协作方式从参数层面转移到行为层面。具体来说，每个客户端在本地数据上微调自己的模型，然后将模型在公共提示集上的输出（即模型的行为）发送到服务器。服务器基于这些输出来构建一个语义共识，并将该共识作为伪标签反馈给客户端，用于进一步的本地微调。这种方法的核心在于，通信量不再依赖于模型的大小，而是依赖于公共提示集的大小和模型输出的表示大小。

技术框架：该方法包含以下几个主要阶段： 1. 本地微调：每个客户端使用本地私有数据对自己的LLM进行微调。 2. 行为交换：客户端使用微调后的模型在预定义的公共提示集上生成输出，并将这些输出发送到服务器。 3. 语义共识：服务器将接收到的输出映射到语义表示空间，并计算每个提示的语义共识。这可以通过多种方式实现，例如计算向量平均或使用聚类算法。 4. 伪标签生成：服务器将语义共识作为伪标签反馈给客户端。 5. 再次微调：客户端使用接收到的伪标签再次在本地微调模型。

关键创新：该方法最重要的创新点在于将联邦学习的协作方式从参数聚合转变为语义共识。与传统的参数聚合方法相比，该方法具有以下优势： 1. 降低通信成本：通信量不再依赖于模型大小，而是依赖于公共提示集的大小和模型输出的表示大小。 2. 支持异构架构：客户端可以使用不同的模型架构，只要它们能够生成文本输出即可。 3. 适用于开放式文本生成：该方法可以直接应用于开放式文本生成任务，而无需对模型进行特殊设计。

关键设计： 1. 公共提示集：公共提示集的设计至关重要，它需要能够覆盖模型的各种能力，并能够产生具有代表性的输出。 2. 语义表示空间：如何将模型输出映射到语义表示空间是一个关键问题。可以使用预训练的句子嵌入模型，或者训练一个专门的编码器。 3. 语义共识算法：如何从多个模型输出中提取语义共识是一个关键问题。可以使用简单的向量平均，也可以使用更复杂的聚类算法或生成模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在匹配甚至超过传统联邦微调基线性能的同时，显著降低了通信成本。例如，对于Llama3.1-405B模型，理论分析表明通信量降低了1006倍。此外，该方法还降低了运行时和能源消耗，使其更适用于资源受限的环境。

🎯 应用场景

该研究成果可广泛应用于涉及多方数据协作的LLM微调场景，例如：医疗健康、金融风控、智能客服等。在保护用户隐私的前提下，实现个性化模型定制，提升服务质量。未来，该方法有望促进联邦学习在资源受限设备上的部署，加速LLM的普及应用。

📄 摘要（原文）

Federated fine-tuning of large language models is commonly formulated as a parameter aggregation problem. However, even parameter-efficient methods require transmitting large collections of trainable weights, assume aligned architectures, and rely on white-box access to model parameters. As model sizes continue to grow and deployments become increasingly heterogeneous, these assumptions become progressively misaligned with practical constraints. We consider an alternative formulation in which collaboration is mediated through model behavior rather than parameters. Clients fine-tune local models on private data and exchange generated outputs on a shared, public prompt set. The server maps these outputs into a semantic representation space, forms a per-prompt semantic consensus, and returns pseudo-labels for further local fine-tuning. This formulation fundamentally changes the communication scaling of federated LLM fine-tuning. The amount of information exchanged depends only on the public prompt budget and the size of the communicated behaviors, independent of model size. As a consequence, the protocol naturally accommodates heterogeneous architectures and applies directly to open-ended text generation. We present a theoretical analysis and empirical results demonstrating that this approach can match strong federated fine-tuning baselines while substantially reducing communication by orders of magnitude (e.g., analytically by a factor of $1006$ for Llama3.1-405B), as well as reductions in runtime and energy consumption. These results suggest that, for generative foundation models, behavior-level consensus provides a more appropriate abstraction for federated adaptation than parameter aggregation.

Beyond Parameter Aggregation: Semantic Consensus for Federated Fine-Tuning of LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理