LLM-Empowered Class Imbalanced Graph Prompt Learning for Online Drug Trafficking Detection
作者: Tianyi Ma, Yiyue Qian, Zehong Wang, Zheyuan Zhang, Chuxu Zhang, Yanfang Ye
分类: cs.LG, cs.AI
发布日期: 2025-02-28
💡 一句话要点
提出LLM-HetGDT框架,利用大语言模型解决在线毒品交易检测中的类别不平衡问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 在线毒品交易检测 类别不平衡学习 异构图神经网络 大语言模型 数据增强 软提示学习 对比学习 图数据挖掘
📋 核心要点
- 现实场景下在线毒品交易检测面临类别不平衡和标注数据稀缺的挑战,现有方法难以有效应对。
- 提出LLM-HetGDT框架,利用LLM增强异构图,并通过软提示学习捕获少数类的重要信息。
- 在Twitter-HetDrug数据集上的实验表明,LLM-HetGDT在毒品交易检测任务中表现出有效性、效率和适用性。
📝 摘要(中文)
由于非法药物市场利润巨大,主要在线平台已成为非法毒品交易参与者的直接面向消费者的中介。这些在线活动引起了重大的社会问题,需要立即采取行动。现有的应对方法通常不切实际,因为在实际应用中存在类别不平衡和标记样本稀缺的问题。为此,我们提出了一种新颖的基于大语言模型的异构图提示学习框架LLM-HetGDT,用于非法毒品交易检测,该框架利用LLM来促进异构图神经网络(HGNNs)有效地识别类别不平衡场景中的毒品交易活动。具体来说,我们首先在对比预训练任务上预训练HGNN,以捕获未标记的毒品交易异构图(HG)上固有的节点和结构信息。然后,我们利用LLM通过生成少数类中的高质量合成用户节点来增强HG。然后,我们在增强的HG上微调软提示,以捕获少数类中的重要信息,用于下游的毒品交易检测任务。为了全面研究在线非法毒品交易活动,我们收集了一个新的基于Twitter的HG数据集,名为Twitter-HetDrug。在该数据集上的大量实验证明了LLM-HetGDT的有效性、效率和适用性。
🔬 方法详解
问题定义:论文旨在解决在线毒品交易检测中,由于数据类别不平衡和标注样本稀缺导致的检测精度低的问题。现有方法难以有效处理少数类样本,导致检测效果不佳。
核心思路:论文的核心思路是利用大语言模型(LLM)生成高质量的少数类合成样本,从而平衡数据集。同时,通过异构图神经网络(HGNN)学习节点和结构信息,并使用软提示(soft prompts)微调模型,以更好地捕获少数类的信息。
技术框架:LLM-HetGDT框架包含以下几个主要阶段:1) HGNN预训练:在未标记的毒品交易异构图上,通过对比学习预训练HGNN,学习节点和结构信息。2) LLM数据增强:利用LLM生成少数类用户节点的合成数据,扩充数据集。3) 软提示微调:在增强后的异构图上,微调软提示,使模型能够更好地识别少数类样本。4) 下游任务检测:将微调后的模型应用于毒品交易检测任务。
关键创新:该方法的主要创新在于:1) 首次将LLM应用于在线毒品交易检测领域,利用LLM生成高质量的合成数据,有效缓解了类别不平衡问题。2) 提出了一种基于异构图和软提示的学习框架,能够更好地捕获少数类的信息,提高检测精度。
关键设计:在HGNN预训练阶段,使用了对比学习损失函数,鼓励模型学习节点之间的相似性。在LLM数据增强阶段,使用了prompt工程技术,引导LLM生成符合特定要求的合成数据。在软提示微调阶段,使用了可学习的prompt向量,通过反向传播优化prompt向量,使其能够更好地捕获少数类的信息。
🖼️ 关键图片
📊 实验亮点
论文在Twitter-HetDrug数据集上进行了实验,结果表明LLM-HetGDT框架能够显著提高毒品交易检测的精度。相较于现有方法,LLM-HetGDT在少数类样本上的检测效果提升明显,验证了LLM数据增强和软提示学习的有效性。具体性能数据未知,但论文强调了其有效性、效率和适用性。
🎯 应用场景
该研究成果可应用于在线社交平台的内容安全治理,帮助识别和打击非法毒品交易活动。通过提高检测精度,可以有效减少毒品交易的发生,维护社会安全和公共健康。该方法也可推广到其他类别不平衡的图数据挖掘任务中,例如金融欺诈检测、恶意账户识别等。
📄 摘要(原文)
As the market for illicit drugs remains extremely profitable, major online platforms have become direct-to-consumer intermediaries for illicit drug trafficking participants. These online activities raise significant social concerns that require immediate actions. Existing approaches to combating this challenge are generally impractical, due to the imbalance of classes and scarcity of labeled samples in real-world applications. To this end, we propose a novel Large Language Model-empowered Heterogeneous Graph Prompt Learning framework for illicit Drug Trafficking detection, called LLM-HetGDT, that leverages LLM to facilitate heterogeneous graph neural networks (HGNNs) to effectively identify drug trafficking activities in the class-imbalanced scenarios. Specifically, we first pre-train HGNN over a contrastive pretext task to capture the inherent node and structure information over the unlabeled drug trafficking heterogeneous graph (HG). Afterward, we employ LLM to augment the HG by generating high-quality synthetic user nodes in minority classes. Then, we fine-tune the soft prompts on the augmented HG to capture the important information in the minority classes for the downstream drug trafficking detection task. To comprehensively study online illicit drug trafficking activities, we collect a new HG dataset over Twitter, called Twitter-HetDrug. Extensive experiments on this dataset demonstrate the effectiveness, efficiency, and applicability of LLM-HetGDT.