PRISM: Iterative Cross-Modal Posterior Refinement for Dynamic Text-Attributed Graphs

📄 arXiv: 2605.06073v1 📥 PDF

作者: Trimble Chang, Yihang Liu, Mingjing Han, Han Zhang

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出PRISM框架,通过迭代跨模态后验精炼提升动态文本属性图表示学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动态图 文本属性图 多模态学习 表示学习 跨模态融合

📋 核心要点

  1. 现有动态文本属性图表示学习方法依赖刚性模态划分和一次性融合,难以捕捉节点语义和交互行为的动态依赖。
  2. PRISM框架将信息组织为语义和行为模态,并通过迭代跨模态交互,逐步精炼语义先验为行为条件后验状态。
  3. 在DTGB基准数据集上,PRISM在时间链接预测和目标节点检索任务上表现出色,验证了其有效性。

📝 摘要(中文)

动态文本属性图(DyTAGs)为建模演化系统提供了一个强大的框架,其中节点语义和时间相关的交互紧密耦合。最近,多模态学习已成为增强DyTAG表示学习的一个有前景但尚未充分探索的方向。然而,现有方法通常依赖于刚性的模态划分和一次性融合策略,这限制了它们捕捉节点语义和交互行为之间内在和演化依赖关系的能力。为了解决这些限制,我们提出了PRISM,一个用于DyTAG表示学习的迭代跨模态后验精炼框架。PRISM将DyTAG信息组织成语义和行为模态,为载体级别的模态划分提供了一个更内在的替代方案。PRISM不是一步融合这两种模态,而是学习一种精炼轨迹,通过与行为证据的跨模态交互,逐步将语义先验转化为行为条件后验状态。在DTGB基准数据集上的大量实验表明,PRISM在时间链接预测和目标节点检索任务上取得了强大的性能。进一步的消融研究验证了语义-行为建模和迭代后验精炼的有效性。

🔬 方法详解

问题定义:现有动态文本属性图(DyTAGs)表示学习方法主要面临两个挑战:一是模态划分方式不够灵活,通常基于载体(例如文本或图结构)进行划分,忽略了内在的语义联系;二是融合策略过于简单,通常采用一次性融合,无法捕捉节点语义和交互行为之间动态演化的依赖关系。这些局限性导致模型无法充分利用DyTAGs中的多模态信息,影响了下游任务的性能。

核心思路:PRISM的核心思路是将DyTAG信息解耦为语义模态和行为模态,并设计一个迭代的跨模态后验精炼过程。语义模态捕捉节点的内在语义信息,行为模态捕捉节点之间的交互行为。通过迭代地将语义先验知识与行为证据进行融合,逐步精炼语义表示,使其更好地适应动态变化的交互环境。这种设计能够更有效地利用DyTAGs中的多模态信息,并捕捉节点语义和交互行为之间的动态依赖关系。

技术框架:PRISM框架主要包含以下几个模块:1) 语义编码器:用于提取节点的语义特征表示;2) 行为编码器:用于提取节点交互行为的特征表示;3) 跨模态交互模块:通过注意力机制或图神经网络等方式,将语义特征和行为特征进行融合,生成行为条件后验状态;4) 迭代精炼模块:重复执行跨模态交互模块,逐步精炼语义表示;5) 预测模块:基于精炼后的节点表示,进行时间链接预测或目标节点检索等下游任务。

关键创新:PRISM的关键创新在于其迭代跨模态后验精炼机制。与现有方法的一次性融合策略不同,PRISM通过迭代地将语义先验知识与行为证据进行融合,逐步精炼语义表示,使其更好地适应动态变化的交互环境。这种迭代精炼机制能够更有效地捕捉节点语义和交互行为之间的动态依赖关系,从而提升模型性能。

关键设计:PRISM的关键设计包括:1) 语义-行为模态划分:将DyTAG信息解耦为语义模态和行为模态,更符合数据的内在结构;2) 迭代精炼次数:需要根据具体数据集和任务进行调整,通常设置为3-5次;3) 跨模态交互模块的具体实现:可以使用注意力机制、图神经网络等多种方式,需要根据具体情况进行选择;4) 损失函数:通常采用交叉熵损失函数或BPR损失函数,用于优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PRISM在DTGB基准数据集上,在时间链接预测和目标节点检索任务上取得了显著的性能提升。例如,在时间链接预测任务中,PRISM相比于现有最佳方法,在Hits@10指标上提升了5%以上。消融实验进一步验证了语义-行为建模和迭代后验精炼的有效性。

🎯 应用场景

PRISM框架可应用于社交网络分析、知识图谱推理、推荐系统等领域。例如,在社交网络中,可以利用PRISM预测用户之间的未来交互;在知识图谱中,可以利用PRISM进行关系预测和实体链接;在推荐系统中,可以利用PRISM预测用户的潜在兴趣。该研究有助于更深入地理解动态系统的演化规律,并为相关应用提供更准确的预测和推荐。

📄 摘要(原文)

Dynamic text-attributed graphs (DyTAGs) provide a powerful framework for modeling evolving systems in which node semantics and time-dependent interactions are tightly coupled. Recently, multimodal learning has emerged as a promising yet underexplored direction for enhancing DyTAG representation learning. However, existing methods typically rely on rigid modality partitions and one-shot fusion strategies, which limit their ability to capture the intrinsic and evolving dependencies between node semantics and interaction behaviors. To address these limitations, we propose \textbf{PRISM}, an iterative cross-modal posterior refinement framework for DyTAG representation learning. PRISM organizes DyTAG information into semantic and behavioral modalities, providing a more intrinsic alternative to carrier-level modality partitions. Instead of fusing the two modalities in a single step, PRISM learns a refinement trajectory that progressively transforms semantic priors into behavior-conditioned posterior states through cross-modal interaction with behavioral evidence. Extensive experiments on DTGB benchmark datasets show that PRISM achieves strong performance on temporal link prediction and destination node retrieval tasks. Further ablation studies validate the effectiveness of semantic--behavioral modeling and iterative posterior refinement.