STAGE: Tackling Semantic Drift in Multimodal Federated Graph Learning

📄 arXiv: 2605.11919v1 📥 PDF

作者: Zekai Chen, Xun Wu, Xunkai Li, Yihan Sun, Rong-Hua Li, Guoren Wang

分类: cs.LG

发布日期: 2026-05-12


💡 一句话要点

提出STAGE框架,解决多模态联邦图学习中的语义漂移问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦图学习 多模态学习 语义漂移 图神经网络 对比学习

📋 核心要点

  1. 多模态联邦图学习面临语义漂移问题,不同客户端对相同概念的表示不一致,导致参数协调困难。
  2. STAGE框架通过构建共享语义空间,将异构多模态特征转换为可比较的表示,并调节其在图上的传播。
  3. 实验表明,STAGE在多个任务上取得了SOTA性能,并降低了通信负载,有效解决了语义漂移问题。

📝 摘要(中文)

联邦图学习(FGL)支持跨多个客户端的图数据协同训练。随着图数据越来越多地包含文本和图像等多模态节点属性,多模态联邦图学习(MM-FGL)已成为一个重要但更具挑战性的设置。关键挑战在于,来自不同模态领域的客户端可能不共享一个共同的语义空间:即使对于相同的概念,它们的本地编码器在协作开始之前也会产生不一致的表示。这使得直接参数协调不可靠,并进一步导致两个下游问题:将异构客户端表示强制放入一个简单的共享语义空间可能会产生错误的语义一致性,并且图消息传递可能会放大邻域中的残余不一致性。为了解决这个问题,我们提出了STAGE,一个面向MM-FGL的协议优先框架。STAGE不依赖于直接参数平均,而是构建一个共享语义空间,该空间首先将异构多模态特征转换为可比较的表示,然后调节这些表示如何在本地图结构上传播。通过这种方式,STAGE不仅提高了跨客户端的语义校准,还降低了图学习过程中不一致性放大的风险。在5个以图为中心和以模态为中心的任务的8个多模态属性图上的大量实验表明,STAGE始终如一地实现了最先进的性能,同时减少了每轮通信负载。

🔬 方法详解

问题定义:多模态联邦图学习(MM-FGL)旨在利用多个客户端上的多模态图数据进行协同训练。然而,不同客户端可能拥有来自不同模态领域的数据,导致即使是相同的概念,其本地编码器也会产生不一致的表示,即语义漂移。现有方法直接进行参数平均,容易产生错误的语义一致性,并且图消息传递会放大邻域中的不一致性。

核心思路:STAGE的核心思路是构建一个共享语义空间,用于将异构的多模态特征转换为可比较的表示。通过在共享语义空间中进行图学习,可以减少跨客户端的语义漂移,并降低不一致性放大的风险。该方法避免了直接的参数平均,而是侧重于语义空间的对齐。

技术框架:STAGE框架包含以下主要阶段:1) 特征转换:将每个客户端的异构多模态特征转换为共享语义空间中的表示。2) 图学习:在共享语义空间中进行图神经网络的训练,利用图结构信息进行学习。3) 模型聚合:将各个客户端的模型参数进行聚合,更新全局模型。

关键创新:STAGE的关键创新在于其协议优先的设计,即首先关注如何构建一个共享的语义空间,然后再进行图学习。这种方法与传统的直接参数平均方法不同,能够更有效地解决多模态联邦图学习中的语义漂移问题。

关键设计:STAGE的关键设计包括:1) 使用对比学习等方法来构建共享语义空间,使得来自不同模态的相同概念的表示更加接近。2) 设计特定的损失函数,用于约束共享语义空间中的表示,例如,鼓励相似节点具有相似的表示。3) 采用轻量级的图神经网络结构,以降低计算复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STAGE在8个多模态属性图上进行了广泛的实验,涵盖了5个以图为中心和以模态为中心的任务。实验结果表明,STAGE始终如一地取得了最先进的性能,并且降低了每轮通信负载。相较于现有方法,STAGE在节点分类、链接预测等任务上取得了显著的性能提升,验证了其有效性。

🎯 应用场景

该研究成果可应用于推荐系统、社交网络分析、生物信息学等领域。例如,在推荐系统中,可以利用多模态信息(如用户评论、商品图片)构建图结构,并使用联邦学习在保护用户隐私的前提下进行模型训练,提升推荐效果。该研究有助于推动联邦学习在多模态数据上的应用,具有重要的实际价值和未来影响。

📄 摘要(原文)

Federated graph learning (FGL) enables collaborative training on graph data across multiple clients. As graph data increasingly contain multimodal node attributes such as text and images, multimodal federated graph learning (MM-FGL) has become an important yet substantially harder setting. The key challenge is that clients from different modality domains may not share a common semantic space: even for the same concept, their local encoders can produce inconsistent representations before collaboration begins. This makes direct parameter coordination unreliable and further causes two downstream problems: forcing heterogeneous client representations into a naively shared semantic space may create false semantic agreement, and graph message passing may amplify residual inconsistency across neighborhoods. To address this issue, we propose \textbf{STAGE}, a protocol-first framework for MM-FGL. Instead of relying on direct parameter averaging, STAGE builds a shared semantic space that first translates heterogeneous multimodal features into comparable representations and then regulates how these representations propagate over local graph structures. In this way, STAGE not only improves cross-client semantic calibration, but also reduces the risk of inconsistency amplification during graph learning. Extensive experiments on 8 multimodal-attributed graphs across 5 graph-centric and modality-centric tasks show that STAGE consistently achieves state-of-the-art performance while reducing per-round communication payload.