PRISM: Topology-Aware Cross-Modal Imputation for Modality-Deficient Federated Graph Learning

📄 arXiv: 2606.09301v1 📥 PDF

作者: Zekai Chen, Miao Zhang, Jiayang Xing, Xunkai Li, Xun Wu, Rong-Hua Li, Guoren Wang

分类: cs.LG

发布日期: 2026-06-08


💡 一句话要点

提出PRISM以解决多模态联邦图学习中的模态缺失问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态联邦学习 图学习 模态缺失 拓扑感知 主动检索 信息传播 语义重构

📋 核心要点

  1. 现有的多模态联邦图学习方法在处理客户端模态缺失时存在不足,缺乏有效的语义重构机制。
  2. PRISM通过拓扑感知的方式,从联邦中检索缺失模态的语义,并将其引入本地图传播,提升了模态缺失客户端的表现。
  3. 在六个多模态图数据集上的实验结果显示,PRISM平均提升了4.48%,超越了现有的最先进基线。

📝 摘要(中文)

多模态联邦图学习(MM-FGL)旨在从去中心化的图中协作学习文本和图像。然而,现实中的客户端可能缺乏共同的模态基础,例如某些客户端可能只包含图像交互图而没有文本描述。我们称这种情况为客户端级模态缺失。与随机实例缺失不同,缺失的客户端缺乏重构缺失模态所需的本地语义基础。为了解决这一问题,本文提出了PRISM(主动检索与结构化元提示的缺失模态填补框架),该框架通过拓扑感知的方式,从联邦中恢复缺失模态的语义,并将其引入本地图传播。实验结果表明,PRISM在六个多模态图数据集上表现优异,平均提升4.48%。

🔬 方法详解

问题定义:本文解决的是多模态联邦图学习中的客户端模态缺失问题。现有方法在面对缺失模态时,往往依赖于本地观察,导致重构效果不佳,影响信息传递和学习效果。

核心思路:PRISM的核心思路是通过拓扑感知的方式,从整个联邦中检索缺失模态的语义信息,而非仅依赖本地数据。这种设计使得信息的重构更加全面和准确。

技术框架:PRISM的整体架构包括三个主要模块:1) 主动检索模块,从联邦中获取缺失模态的语义;2) 拓扑感知模块,控制信息在图中的传播;3) 本地图传播模块,将检索到的语义引入本地图中进行学习。

关键创新:PRISM的主要创新在于其拓扑感知的填补机制,能够有效地利用联邦中的信息进行模态重构,克服了传统方法的局限性。

关键设计:在实现中,PRISM采用了特定的损失函数来平衡重构误差与信息传播的有效性,同时设计了适应性强的网络结构,以支持多模态信息的融合与处理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,PRISM在六个多模态图数据集上的表现显著优于现有最先进的基线,平均提升幅度达到4.48%。这一结果表明,PRISM在处理模态缺失问题上具有显著的优势,能够有效改善多模态联邦图学习的效果。

🎯 应用场景

该研究的潜在应用领域包括电子商务、社交媒体分析和智能推荐系统等。在这些领域中,客户端常常面临模态缺失的问题,PRISM能够有效提升信息的利用效率和学习效果,具有重要的实际价值和未来影响。

📄 摘要(原文)

Multimodal federated graph learning (MM-FGL) aims to collaboratively learn from decentralized graphs with text and images. However, real-world clients may not share a common modality basis: a visual-search client may contain image--interaction graphs but no seller descriptions, while a catalog client may provide text but no product images. We refer to this practical setting as client-level modality deficiency. Unlike random instance-wise missingness, a deficient client lacks the local semantic basis needed to reconstruct the absent modality. More importantly, in graph learning, incomplete representations initialize message passing, so imputation errors can be filtered, mixed, and amplified by the receiving topology. To address this gap, we propose \textbf{PRISM} (\textbf{P}roactive \textbf{R}etrieval and \textbf{I}mputation via \textbf{S}tructural \textbf{M}eta-prompting), a topology-aware federated cross-modal imputation framework. Rather than reconstructing the missing modality solely from local observations, PRISM recovers missing-modality semantics from the federation and introduces them into local graph propagation under topology-aware control. Experiments on six multimodal graph datasets across graph-centric and modality-centric tasks show that PRISM consistently improves modality-deficient clients, outperforming state-of-the-art baselines by \textbf{4.48}\% on average.