ProToken: Token-Level Attribution for Federated Large Language Models

📄 arXiv: 2601.19672v1 📥 PDF

作者: Waris Gill, Ahmad Humayun, Ali Anwar, Muhammad Ali Gulzar

分类: cs.LG, cs.AI, cs.SE

发布日期: 2026-01-27


💡 一句话要点

ProToken:为联邦大语言模型实现Token级别溯源,解决贡献者追踪难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 大语言模型 Token级别溯源 客户端归因 Transformer 梯度加权 隐私保护

📋 核心要点

  1. 联邦学习训练的LLM在关键应用中难以追踪贡献者,影响调试、奖励分配和信任验证。
  2. ProToken利用Transformer特性,选择关键层并使用梯度加权,实现Token级别的客户端贡献溯源。
  3. 实验表明,ProToken在多种LLM架构和领域中实现了98%的平均归因准确率,并具有良好的可扩展性。

📝 摘要(中文)

联邦学习(FL)支持跨分布式数据源协同训练大型语言模型(LLM),同时保护隐私。然而,当联邦LLM部署在关键应用中时,特定生成响应由哪些客户端贡献仍然不清楚,这阻碍了调试、恶意客户端识别、公平奖励分配和信任验证。我们提出了ProToken,一种新颖的Token级别溯源方法,用于联邦LLM中的Token级归因,解决了自回归文本生成期间的客户端归因问题,同时保持FL隐私约束。ProToken利用两个关键见解来实现每个token的溯源:(1) Transformer架构将特定于任务的信号集中在后面的块中,从而能够进行战略性的层选择以实现计算上的易处理性;(2) 基于梯度的相关性加权过滤掉不相关的神经激活,将归因集中在直接影响token生成的神经元上。我们在跨越四个LLM架构(Gemma, Llama, Qwen, SmolLM)和四个领域(医疗、金融、数学、编码)的16种配置中评估了ProToken。ProToken在正确定位负责客户端方面实现了98%的平均归因准确率,并且在客户端数量扩展时保持了高准确率,验证了其在实际部署环境中的可行性。

🔬 方法详解

问题定义:论文旨在解决联邦学习场景下,大型语言模型生成文本时,难以追踪每个token是由哪个客户端贡献的问题。现有方法无法在保护隐私的前提下,对生成内容进行细粒度的溯源,这给模型的调试、恶意客户端识别以及公平奖励分配带来了挑战。

核心思路:ProToken的核心思路是利用Transformer架构的特性,结合梯度信息,对每个生成的token进行客户端归因。具体来说,它选择Transformer的后几层进行分析,因为这些层集中了任务相关的信号。然后,通过梯度加权,过滤掉不相关的神经元激活,从而将归因集中在对token生成有直接影响的神经元上。

技术框架:ProToken的整体框架包括以下几个主要阶段:1) 前向传播:使用联邦学习训练好的LLM生成文本。2) 层选择:选择Transformer的后几层作为分析对象。3) 梯度计算:计算每个token生成时,选定层中神经元激活的梯度。4) 相关性加权:使用梯度信息对神经元激活进行加权,突出重要神经元。5) 客户端归因:根据加权后的神经元激活,确定对该token贡献最大的客户端。

关键创新:ProToken的关键创新在于:1) 提出了Token级别的客户端归因方法,实现了细粒度的溯源。2) 利用Transformer架构的特性,选择关键层进行分析,降低了计算复杂度。3) 结合梯度信息,过滤掉不相关的神经元激活,提高了归因准确率。与现有方法相比,ProToken能够在保护隐私的前提下,实现更准确、更高效的客户端归因。

关键设计:ProToken的关键设计包括:1) 层选择策略:选择Transformer的后几层,通常是最后3-4层。2) 梯度计算方法:使用反向传播算法计算梯度。3) 相关性加权函数:可以使用不同的函数,例如梯度绝对值、梯度平方等。4) 客户端归因策略:可以选择贡献最大的客户端,或者选择贡献超过一定阈值的客户端。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProToken在四个LLM架构(Gemma, Llama, Qwen, SmolLM)和四个领域(医疗、金融、数学、编码)的16种配置中进行了评估。实验结果表明,ProToken实现了98%的平均归因准确率,能够正确定位负责的客户端。此外,ProToken在客户端数量扩展时保持了高准确率,验证了其在实际部署环境中的可行性。

🎯 应用场景

ProToken可应用于金融、医疗等敏感领域的联邦学习场景,实现对生成内容的溯源,便于问题诊断、风险控制和责任追溯。它还有助于公平地分配奖励,激励参与者贡献高质量数据,并提升用户对联邦学习系统的信任度。未来,该技术可扩展到其他类型的生成模型和联邦学习框架。

📄 摘要(原文)

Federated Learning (FL) enables collaborative training of Large Language Models (LLMs) across distributed data sources while preserving privacy. However, when federated LLMs are deployed in critical applications, it remains unclear which client(s) contributed to specific generated responses, hindering debugging, malicious client identification, fair reward allocation, and trust verification. We present ProToken, a novel Provenance methodology for Token-level attribution in federated LLMs that addresses client attribution during autoregressive text generation while maintaining FL privacy constraints. ProToken leverages two key insights to enable provenance at each token: (1) transformer architectures concentrate task-specific signals in later blocks, enabling strategic layer selection for computational tractability, and (2) gradient-based relevance weighting filters out irrelevant neural activations, focusing attribution on neurons that directly influence token generation. We evaluate ProToken across 16 configurations spanning four LLM architectures (Gemma, Llama, Qwen, SmolLM) and four domains (medical, financial, mathematical, coding). ProToken achieves 98% average attribution accuracy in correctly localizing responsible client(s), and maintains high accuracy when the number of clients are scaled, validating its practical viability for real-world deployment settings.