On the Fragility of Data Attribution When Learning Is Distributed
作者: Xian Gao, Bo Hui, Min-Te Sun, Wei-Shinn Ku
分类: cs.LG, cs.AI, cs.DC
发布日期: 2026-05-15
💡 一句话要点
提出数据归因鲁棒性方法以应对分布式学习中的攻击
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 数据归因 分布式学习 安全性评估 机器学习 攻击防御 潜在优化 非IID标签 归因机制
📋 核心要点
- 现有的归因方法假设归因值能够准确反映参与者的贡献,但这一假设在分布式学习中可能失效。
- 论文提出了一种归因优先攻击,通过潜在优化技术注入合成批次,利用非IID标签覆盖来夸大归因值。
- 实验结果表明,该攻击在多个数据集和模型上有效提升了对手的归因值,同时未降低整体模型的准确性。
📝 摘要(中文)
数据归因在机器学习管道中的定价、审计和治理中变得越来越重要,但大多数归因方法隐含假设归因值忠实反映参与者的贡献。本文展示了这一假设可能失效的情况:在标准的分布式训练工作流中,单个参与者可以显著夸大其测量的归因值,同时保持全局效用。我们提出的归因优先攻击利用潜在优化技术注入小的合成批次,利用非独立同分布标签覆盖和评估者敏感性,在不降低准确性或触发几何防御的情况下,持续增加对手的归因值,并重塑良性客户端之间的相对归因结构。这些结果表明,归因本身形成了一个新的攻击面,促使开发归因鲁棒和激励兼容的评分机制。
🔬 方法详解
问题定义:本文旨在解决在分布式学习中,数据归因方法假设归因值能够准确反映参与者贡献的问题。现有方法在面对攻击时可能失效,导致归因值被夸大。
核心思路:论文提出了一种新的攻击方式,称为归因优先攻击,利用潜在优化技术向训练过程中注入小的合成批次,以此来操控归因值,同时保持全局模型的效用。
技术框架:整体架构包括数据注入模块、归因计算模块和评估模块。数据注入模块负责生成合成批次,归因计算模块用于计算参与者的归因值,评估模块则用于验证模型的全局效用和准确性。
关键创新:最重要的创新在于提出了归因优先攻击这一概念,展示了归因本身可以成为攻击的目标,与传统的攻击方法相比,能够在不降低模型性能的情况下显著提高对手的归因值。
关键设计:在技术细节上,论文设计了特定的损失函数以优化合成批次的生成,同时考虑了评估者的敏感性和非IID标签的覆盖情况,以确保攻击的有效性和隐蔽性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,归因优先攻击在多个数据集和模型上均有效提升了对手的归因值,且未对模型的整体准确性造成影响。具体而言,攻击可以在不触发几何防御的情况下,持续增加对手的归因值,重塑良性客户端之间的相对归因结构,展示了归因本身作为攻击面的重要性。
🎯 应用场景
该研究的潜在应用场景包括机器学习模型的安全性评估、数据归因机制的改进以及分布式学习环境中的公平性保障。通过开发更鲁棒的归因机制,可以提高机器学习系统在实际应用中的可靠性和安全性,防止恶意参与者的攻击。未来,该研究可能推动相关领域的标准化和最佳实践的制定。
📄 摘要(原文)
Data attribution has become an important component of pricing, auditing, and governance in machine learning pipelines, yet most attribution methods implicitly assume that attribution values faithfully reflect participants' contributions. We show that this assumption can fail: a single participant in a standard distributed training workflow can substantially inflate its measured attribution value while preserving global utility. Our attribution-first attack uses latent optimization to inject small synthetic batches that preserve utility while exploiting non-IID label coverage and evaluator sensitivities. Across datasets, models, and multiple marginal-utility evaluators, the attack consistently increases the adversary's attribution value and reshapes the relative attribution structure among benign clients without degrading accuracy or triggering geometry-based defenses. These results show that attribution itself forms a new attack surface and motivate the development of attribution-robust and incentive-compatible scoring mechanisms.