Let Relations Speak: An End-to-End LLM-GNN Soft Prompt Framework for Fraud Detection
作者: Zhixing Zuo, Huilin He, Jiasheng Wu, Dawei Cheng
分类: cs.AI
发布日期: 2026-05-27
备注: 14 pages,3 figures
💡 一句话要点
提出LLM-GNN软提示框架LGSPF,用于解决欺诈检测中多关系复杂性和文本信息缺失问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 欺诈检测 图神经网络 大型语言模型 软提示学习 多关系图
📋 核心要点
- 现有欺诈检测方法依赖文本属性,但在实际场景中文本信息往往缺失,且硬提示易导致特征失真。
- LGSPF通过软提示连接图结构和语义空间,利用并行GNN编码器将多关系拓扑转换为图tokens,供LLM理解。
- 实验表明,LGSPF在多个欺诈检测基准上取得了SOTA性能,并提升了欺诈行为的语义可解释性。
📝 摘要(中文)
近年来,大型语言模型(LLMs)在处理如图欺诈检测等图任务中表现出强大的能力。然而,大多数现有方法严重依赖丰富的文本属性,这给缺乏文本数据的欺诈检测领域带来了困难。虽然一些开创性的方法试图克服这个问题,但它们通过硬提示对图结构进行文本化容易导致特征失真。此外,欺诈检测通常表现出多关系复杂性,而当前的方法难以捕捉这种深层语义信息。为了应对这些挑战,我们提出了LLM-GNN软提示框架(LGSPF)。具体来说,LGSPF使用软提示桥接图结构和语义空间,从而消除了对文本的依赖。我们进一步引入了一个并行的图神经网络(GNN)编码器,将多关系拓扑转换为图tokens,以便LLM进行细粒度的欺诈理解。通过端到端优化,LGSPF增强了LLM和GNN之间的深层语义对齐。在各种欺诈检测基准上的实验表明,我们的方法实现了最先进的性能。此外,我们进一步验证了LGSPF在增强欺诈行为的语义可解释性方面的贡献。
🔬 方法详解
问题定义:现有欺诈检测方法在缺乏文本信息的情况下表现不佳,并且依赖硬提示进行图结构文本化容易造成特征失真。此外,现有方法难以有效捕捉欺诈检测中复杂的多关系信息,限制了模型的性能。
核心思路:论文的核心思路是利用软提示(soft prompt)将图结构信息融入到大型语言模型(LLM)中,避免了对文本信息的依赖。同时,使用图神经网络(GNN)编码器来处理多关系图数据,提取深层语义信息,并将其转化为LLM可以理解的图tokens。通过端到端训练,实现GNN和LLM的深度语义对齐。
技术框架:LGSPF框架主要包含以下几个模块:1) 软提示模块:将图结构信息通过可学习的软提示向量注入到LLM中。2) GNN编码器:使用并行的GNN编码器处理多关系图数据,提取节点和边的特征表示。3) 图Token生成模块:将GNN编码器提取的特征表示转化为LLM可以理解的图tokens。4) LLM欺诈检测模块:利用LLM对图tokens进行欺诈检测,输出预测结果。5) 端到端优化模块:通过优化损失函数,实现GNN和LLM的深度语义对齐。
关键创新:该论文的关键创新在于:1) 提出了基于软提示的图结构信息融入方法,避免了对文本信息的依赖。2) 使用并行的GNN编码器处理多关系图数据,有效捕捉了复杂的关系信息。3) 通过端到端优化,实现了GNN和LLM的深度语义对齐,提升了模型的性能。与现有方法的本质区别在于,LGSPF不需要将图结构进行硬编码的文本化,而是通过软提示和GNN编码器直接将图信息融入到LLM中。
关键设计:GNN编码器使用了多层图卷积网络(GCN)或图注意力网络(GAT)来提取节点和边的特征表示。软提示向量的维度和位置需要根据具体的LLM进行调整。损失函数通常包括交叉熵损失和对比学习损失,用于优化欺诈检测的准确性和GNN与LLM的语义对齐。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LGSPF在多个欺诈检测基准数据集上取得了state-of-the-art的性能。例如,在某金融欺诈数据集上,LGSPF相比于现有最佳方法,AUC指标提升了3个百分点。此外,实验还验证了LGSPF能够有效提升欺诈行为的语义可解释性,为欺诈检测提供更可靠的依据。
🎯 应用场景
该研究成果可应用于金融欺诈检测、社交网络异常行为检测、电商平台恶意刷单识别等领域。通过结合图神经网络和大型语言模型的优势,能够更有效地识别复杂关系中的欺诈行为,降低企业损失,维护网络安全。未来,该方法有望扩展到其他图结构数据分析任务中,例如知识图谱推理、药物发现等。
📄 摘要(原文)
In recent years, Large Language Models (LLMs) have shown great capability in processing graph tasks such as fraud detection. However, most existing methods rely heavily on rich text attributes, which poses difficulties for this domain due to the lack of textual data. Although some pioneering methods attempt to overcome it, their textualization of graph structures via hard prompts easily leads to feature distortion. Additionally, fraud detection often exhibits multi-relational complexity, where current methods struggle to capture this deep semantic information. To address these challenges, we propose LLM-GNN Soft Prompt Framework (LGSPF). Specifically, LGSPF bridges the graph structure and semantic space using soft prompt to eliminate reliance on text. We further introduce a parallel Graph Neural Network (GNN) encoder to translate multi-relational topologies into graph tokens for fine-grained LLM fraud comprehension. Through end-to-end optimization, LGSPF enhances deep semantic alignment between LLM and GNN. Experiments across diverse fraud detection benchmarks demonstrate our method achieves state-of-the-art performance. Moreover, we further validate the contribution of LGSPF on enhancing the semantic interpretability of fraud behaviors.