EASE: Federated Multimodal Unlearning via Entanglement-Aware Anchor Closure
作者: Zihao Ding, Beining Wu, Jun Huang
分类: cs.NI, cs.AI, cs.LG, cs.MM
发布日期: 2026-05-01
💡 一句话要点
EASE:通过解耦感知锚点闭合实现联邦多模态可遗忘学习
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 多模态学习 可遗忘学习 知识解耦 对比学习
📋 核心要点
- 联邦多模态学习中,模态和客户端梯度子空间的知识纠缠阻碍了可遗忘学习,现有方法未能有效解耦。
- EASE通过双边位移关闭跨模态重建通道,利用余弦-正弦分解分离forget-exclusive方向,并使用遗忘锁限制残差漂移。
- EASE在多个数据集和场景中表现优越,例如在Flickr30K上,客户端可遗忘学习的性能接近完全重新训练。
📝 摘要(中文)
联邦多模态学习(FML)在去中心化的客户端上训练多模态模型,同时保护图像-文本对的隐私。然而,联合嵌入训练会将遗忘的知识纠缠在模态和客户端梯度子空间中,阻碍联邦可遗忘学习。以往的联邦可遗忘学习方法既没有切断由双线性耦合介导的跨模态重建通道,也没有将forget-exclusive更新方向与保留客户端共享的方向分离。我们提出了联邦多模态对比可遗忘学习的锚点原则:遗忘的对齐通过双线性跨模态耦合、主角度子空间纠缠和持续的联邦更新产生的三个残差锚点持续存在。在模态层面,我们表明视觉和语言分支的双边位移关闭了跨模态重建通道。相应地,我们的方法通过客户端更新子空间的余弦-正弦分解来解决子空间纠缠问题,从而将forget-exclusive方向与保留支持分离。此外,我们提出了一种方向选择性遗忘锁,用于限制跨轮次的残差漂移。结合这些策略,我们提出了EASE,一个解耦感知子空间切除框架,它在统一设计下关闭所有三个锚点通道。EASE在多个数据集和可遗忘学习场景中表现出一致的优越性,例如,在使用CLIP-B/32在Flickr30K上进行客户端可遗忘学习时,在遗忘和保留侧匹配到0.2和4.2 R@1点内的重新训练参考。
🔬 方法详解
问题定义:联邦多模态学习中的可遗忘学习问题,具体来说,是如何在保护客户端数据隐私的前提下,从联邦模型中移除特定客户端或特定类别的数据的影响。现有方法的痛点在于,多模态数据的联合训练导致知识在不同模态和客户端之间相互纠缠,使得简单地移除某个客户端的梯度信息无法彻底“遗忘”该客户端的数据,从而影响模型在其他客户端上的性能。
核心思路:论文的核心思路是识别并消除导致知识纠缠的“锚点”,这些锚点包括双线性跨模态耦合、主角度子空间纠缠和持续的联邦更新。通过解耦这些锚点,可以更有效地将遗忘的知识从模型中移除,同时尽可能地保留模型在其他客户端上的性能。
技术框架:EASE框架主要包含三个关键模块:1) 双边位移:通过对视觉和语言分支进行位移操作,关闭跨模态重建通道,减少模态间的知识泄漏。2) 子空间切除:利用余弦-正弦分解,将客户端更新子空间分解为forget-exclusive方向和retain支持方向,从而可以精确地移除与遗忘数据相关的更新。3) 遗忘锁:通过方向选择性的遗忘锁,限制跨轮次的残差漂移,防止遗忘操作对模型其他部分产生负面影响。
关键创新:论文最重要的技术创新点在于提出了“锚点原则”,并针对性地设计了相应的解耦策略。与现有方法相比,EASE不仅考虑了客户端层面的遗忘,还深入分析了多模态数据之间的知识纠缠,并提出了有效的解耦方法。
关键设计:在双边位移中,需要仔细选择位移的幅度,以避免过度干扰模型性能。在子空间切除中,余弦-正弦分解的精度直接影响了遗忘效果。遗忘锁的设计需要权衡遗忘速度和模型稳定性,避免过度限制更新导致模型收敛缓慢。
🖼️ 关键图片
📊 实验亮点
EASE在多个数据集(如Flickr30K)和可遗忘学习场景中表现出优越性。例如,在使用CLIP-B/32在Flickr30K上进行客户端可遗忘学习时,EASE在遗忘侧和保留侧的R@1指标上,分别达到了与完全重新训练参考模型相差0.2和4.2个百分点的性能,显著优于其他基线方法,证明了其有效性。
🎯 应用场景
该研究成果可应用于各种涉及联邦多模态学习的场景,例如:个性化推荐系统、医疗影像分析、自动驾驶等。在这些场景中,用户数据分布在不同的设备或机构中,需要保护用户隐私,同时又要能够根据用户反馈或法律法规的要求,及时地从模型中移除特定用户或特定类别的数据的影响。该研究有助于构建更加安全、可靠和可控的联邦学习系统。
📄 摘要(原文)
Federated Multimodal Learning (FML) trains multimodal models across decentralized clients while keeping their image-text pairs private. However, joint embedding training entangles forgotten knowledge across both modalities and client gradient subspaces, hindering federated unlearning. Previous federated unlearning approaches neither sever the cross-modal reconstruction channel mediated by bilinear coupling nor separate forget-exclusive update directions from those shared with retained clients. We identify an Anchor Principle for federated multimodal contrastive unlearning: forgotten alignments persist through three residual anchors arising from bilinear cross-modal coupling, principal-angle subspace entanglement, and continued federated updates. At the modality level, we show that bilateral displacement of both visual and language branches closes the cross-modal reconstruction channel. Correspondingly, our method addresses subspace entanglement through Cosine--Sine decomposition of client-update subspaces, isolating forget-exclusive directions from retain support. Moreover, we propose a direction-selective Forget Lock that bounds residual drift across rounds. Combining these strategies, we present EASE, an Entanglement-Aware Subspace Excision framework that closes all three anchor channels under a unified design. EASE demonstrates consistent superiority across multiple datasets and unlearning scenarios, for instance, matching the retrain reference to within 0.2 and 4.2 R@1 points on the forget and retain sides under client unlearning on Flickr30K with CLIP-B/32.