PROVCREATOR: Synthesizing Complex Heterogenous Graphs with Node and Edge Attributes

📄 arXiv: 2507.20967v1 📥 PDF

作者: Tianhao Wang, Simon Klancher, Kunal Mukherjee, Josh Wiedemeier, Feng Chen, Murat Kantarcioglu, Kangkook Jee

分类: cs.LG

发布日期: 2025-07-28


💡 一句话要点

ProvCreator:用于合成具有节点和边属性的复杂异构图

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图生成 异构图 序列生成 Transformer 知识图谱

📋 核心要点

  1. 现有图生成方法难以处理具有复杂异构模式和高维属性的真实世界图,限制了其应用。
  2. ProvCreator将图合成转化为序列生成任务,利用Transformer模型学习图的结构和属性。
  3. 实验表明,ProvCreator在系统溯源图和知识图上能够生成逼真且具有隐私保护的合成数据集。

📝 摘要(中文)

图结构数据的兴起推动了对图学习和合成数据生成的研究兴趣。虽然在文本和图像领域取得了成功,但合成图生成仍然具有挑战性,特别是对于具有复杂、异构模式的真实世界图。现有的研究主要集中在具有简单属性的同构结构上,限制了它们在需要语义保真度的应用领域中的效用和相关性。本文提出了ProvCreator,一个为具有高维节点和边属性的复杂异构图设计的合成图框架。ProvCreator将图合成形式化为序列生成任务,从而可以使用基于Transformer的大型语言模型。它具有通用的图到序列编码器-解码器,可以1.无损地编码图结构和属性,2.有效地压缩大型图以进行上下文建模,以及3.支持端到端、可学习的图生成。为了验证研究,在两个具有挑战性的领域评估ProvCreator:网络安全中的系统溯源图和来自IntelliGraph基准数据集的知识图。在这两种情况下,ProvCreator都捕获了结构和语义之间复杂的依赖关系,从而能够生成逼真的和具有隐私意识的合成数据集。

🔬 方法详解

问题定义:现有图生成方法主要集中于同构图和简单属性,无法有效处理真实世界中复杂的异构图,尤其是在节点和边具有高维属性的情况下。这些方法难以捕捉图结构和语义之间的复杂依赖关系,导致生成的合成图在实际应用中效果不佳。

核心思路:ProvCreator的核心思路是将图结构和属性编码为序列,然后利用Transformer模型学习这些序列的生成模式。通过将图合成问题转化为序列生成问题,可以充分利用大型语言模型在序列建模方面的优势,从而生成更逼真、更具语义保真度的合成图。

技术框架:ProvCreator采用图到序列的编码器-解码器架构。编码器负责将输入的图结构和属性无损地编码成序列表示,同时进行压缩以提高效率。解码器则基于编码后的序列表示,利用Transformer模型生成新的图序列。整个框架支持端到端的学习,使得图的结构和属性可以联合优化。

关键创新:ProvCreator的关键创新在于其通用的图到序列编码方式,能够有效地表示复杂的异构图结构和高维属性。此外,它还利用Transformer模型进行序列生成,从而能够捕捉图结构和语义之间复杂的依赖关系。这种方法与现有方法的主要区别在于,它能够处理更复杂的图结构,并生成更逼真的合成图。

关键设计:ProvCreator的关键设计包括:1) 一种无损的图序列化方法,确保图的信息在编码过程中不会丢失;2) 一种高效的图压缩算法,降低Transformer模型的计算复杂度;3) 一种可学习的图生成策略,允许模型根据不同的应用场景进行调整。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProvCreator在系统溯源图和知识图谱两个数据集上进行了评估。实验结果表明,ProvCreator能够有效地捕捉图结构和语义之间的复杂依赖关系,生成逼真的合成图。具体的性能指标(如生成图的统计特性、下游任务的性能等)和对比基线(如现有的图生成模型)以及提升幅度在论文中进行了详细描述(未知)。

🎯 应用场景

ProvCreator在多个领域具有广泛的应用前景,包括网络安全、知识图谱、生物信息学等。它可以用于生成具有隐私保护的合成数据集,从而促进图学习算法的研究和开发。此外,ProvCreator还可以用于数据增强,提高图学习模型的泛化能力。在网络安全领域,它可以用于生成逼真的系统溯源图,帮助安全分析人员识别潜在的安全威胁。

📄 摘要(原文)

The rise of graph-structured data has driven interest in graph learning and synthetic data generation. While successful in text and image domains, synthetic graph generation remains challenging -- especially for real-world graphs with complex, heterogeneous schemas. Existing research has focused mostly on homogeneous structures with simple attributes, limiting their usefulness and relevance for application domains requiring semantic fidelity. In this research, we introduce ProvCreator, a synthetic graph framework designed for complex heterogeneous graphs with high-dimensional node and edge attributes. ProvCreator formulates graph synthesis as a sequence generation task, enabling the use of transformer-based large language models. It features a versatile graph-to-sequence encoder-decoder that 1. losslessly encodes graph structure and attributes, 2. efficiently compresses large graphs for contextual modeling, and 3. supports end-to-end, learnable graph generation. To validate our research, we evaluate ProvCreator on two challenging domains: system provenance graphs in cybersecurity and knowledge graphs from IntelliGraph Benchmark Dataset. In both cases, ProvCreator captures intricate dependencies between structure and semantics, enabling the generation of realistic and privacy-aware synthetic datasets.