Graph Representation Learning Augmented Model Manipulation on Federated Fine-Tuning of LLMs

📄 arXiv: 2605.07961v1 📥 PDF

作者: Hanlin Cai, Kai Li, Houtianfu Wang, Haofan Dong, Yichen Li, Falko Dressler, Ozgur B. Akan

分类: cs.LG, cs.CR, cs.NI

发布日期: 2026-05-08


💡 一句话要点

提出AugMP策略,利用图表示学习增强联邦微调LLM中的模型操纵攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 大语言模型 模型操纵攻击 图表示学习 对抗性机器学习 隐私保护

📋 核心要点

  1. 联邦微调中的LLM易受恶意参与者上传的操纵性更新攻击,导致全局模型性能显著下降且难以被检测。
  2. 提出AugMP策略,利用图表示学习捕捉良性更新特征相关性,并结合增广拉格朗日对偶公式优化恶意更新。
  3. 实验证明AugMP在多种LLM骨干上实现最强攻击效果,全局准确率降幅达26%,且能有效绕过基于距离和相似度的防御。

📝 摘要(中文)

联邦微调(FFT)作为一种保护隐私的范式,允许分布式代理在不共享原始数据的情况下协同优化预训练大语言模型(LLM)。然而,FFT面临模型操纵威胁,即恶意参与者上传受损更新以破坏全局模型性能。本文提出了AugMP(增强模型操纵)策略。该方法设计了一种图表示学习框架,通过捕捉良性LLM更新间的特征相关性来指导恶意更新的生成。为提升攻击的有效性与隐蔽性,作者开发了一种基于增广拉格朗日对偶公式的迭代操纵算法,使恶意更新在嵌入对抗目标的同时保持良性参数特征。实验表明,AugMP在多个LLM骨干网络上表现出最强的攻击性能,可使全局模型准确率下降高达26%,且因其在统计和几何特征上与良性更新高度一致,能够有效规避现有的防御机制。

🔬 方法详解

问题定义:论文旨在解决联邦微调(FFT)场景下的模型操纵攻击问题。现有攻击方法往往难以在保持高攻击强度的同时,规避基于距离或相似度的防御机制,导致恶意更新容易被检测并剔除。

核心思路:核心思想是利用图表示学习(Graph Representation Learning)建模良性更新之间的内在特征相关性,从而生成在统计分布和几何结构上与良性更新高度相似的恶意更新,实现“隐形”攻击。

技术框架:整体框架分为两个阶段:首先通过图神经网络学习良性更新的特征表示,捕捉参数空间的关联性;其次,利用增广拉格朗日对偶公式进行迭代优化,在满足对抗性目标的同时,将恶意更新约束在良性更新的分布流形内。

关键创新:最重要的创新在于将图表示学习引入对抗攻击,通过建模参数间的依赖关系而非简单的噪声注入,显著提升了攻击的隐蔽性。此外,引入增广拉格朗日对偶 formulation 实现了攻击目标与隐蔽性约束的动态平衡。

关键设计:关键技术细节包括:构建参数更新的图结构以提取特征相关性;利用增广拉格朗日乘子法处理约束优化问题,确保恶意更新在参数空间中与良性更新保持高度的统计一致性,从而绕过传统的防御检测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在多个主流LLM骨干网络上进行了广泛验证。结果显示,AugMP在攻击强度上显著优于现有基线,最高可导致全局LLM准确率下降26%,本地代理准确率下降22%。更重要的是,该方法生成的恶意更新在统计和几何特征上与良性更新高度一致,成功规避了基于距离和相似度的传统防御方法,证明了其极高的隐蔽性。

🎯 应用场景

该研究主要应用于联邦学习系统的安全性评估与防御机制设计。通过模拟先进的模型操纵攻击,研究者可以识别现有联邦微调架构中的脆弱环节,从而开发更鲁棒的聚合算法和异常检测防御方案,提升分布式协同训练在医疗、金融等敏感领域应用时的安全性与可靠性。

📄 摘要(原文)

Federated fine-tuning (FFT) has emerged as a privacy-preserving paradigm for collaboratively adapting large language models (LLMs). Built upon federated learning, FFT enables distributed agents to jointly refine a shared pretrained LLM by aggregating local LLM updates without sharing local raw data. However, FFT-based LLMs remain vulnerable to model manipulation threats, in which adversarial participants upload manipulated LLM updates that corrupt the aggregation process and degrade the performance of the global LLM. In this paper, we propose an Augmented Model maniPulation (AugMP) strategy against FFT-based LLMs. Specifically, we design a novel graph representation learning framework that captures feature correlations among benign LLM updates to guide the generation of malicious updates. To enhance manipulation effectiveness and stealthiness, we develop an iterative manipulation algorithm based on an augmented Lagrangian dual formulation. Through this formulation, malicious updates are optimized to embed adversarial objectives while preserving benign-like parameter characteristics. Experimental results across multiple LLM backbones demonstrate that the AugMP strategy achieves the strongest manipulation performance among all competing baselines, reducing the global LLM accuracy by up to 26% and degrading the average accuracy of local LLM agents by up to 22%. Meanwhile, AugMP maintains high statistical and geometric consistency with benign updates, enabling it to evade conventional distance- and similarity-based defense methods.