Few-Shot Graph Out-of-Distribution Detection with LLMs

📄 arXiv: 2503.22097v1 📥 PDF

作者: Haoyan Xu, Zhengtao Yao, Yushun Dong, Ziyi Wang, Ryan A. Rossi, Mengyuan Li, Yue Zhao

分类: cs.LG, cs.CL

发布日期: 2025-03-28


💡 一句话要点

LLM-GOOD:结合LLM与GNN的少样本图OOD检测框架,降低标注成本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图神经网络 分布外检测 少样本学习 大型语言模型 文本属性图

📋 核心要点

  1. 现有图OOD检测方法依赖大量标注数据,但在文本属性图上获取高质量标注成本高昂。
  2. LLM-GOOD框架结合LLM的零样本能力和GNN的结构信息处理能力,提升数据效率。
  3. 实验表明,LLM-GOOD显著降低标注成本,并在ID分类和OOD检测上优于现有方法。

📝 摘要(中文)

现有的图分布外(OOD)检测方法通常依赖于使用大量标记的分布内(ID)数据训练图神经网络(GNN)分类器。然而,由于文本属性图(TAG)复杂的文本和结构特征,获取高质量的标记节点具有挑战性和高成本。大型语言模型(LLM)在文本任务中表现出强大的零样本能力,但难以自然地捕捉TAG固有的关键结构信息,限制了其直接有效性。为了解决这些挑战,我们提出了LLM-GOOD,一个通用框架,有效地结合了LLM和GNN的优势,以提高图OOD检测中的数据效率。具体来说,我们首先利用LLM强大的零样本能力来过滤掉可能的OOD节点,从而显著降低人工标注负担。为了最小化LLM的使用和成本,我们仅使用它来标注一小部分未标记的节点。然后,我们使用这些带噪声的标签训练一个轻量级的GNN过滤器,通过利用文本和结构信息,有效地预测所有其他未标记节点的ID状态。在从GNN过滤器获得节点嵌入后,我们可以应用基于信息量的方法来选择最有价值的节点进行精确的人工标注。最后,我们使用这些准确标注的ID节点来训练目标ID分类器。在四个真实世界的TAG数据集上的大量实验表明,LLM-GOOD显著降低了人工标注成本,并且在ID分类准确性和OOD检测性能方面均优于最先进的基线方法。

🔬 方法详解

问题定义:论文旨在解决文本属性图(TAG)上的少样本分布外(OOD)检测问题。现有方法依赖大量标注数据训练GNN,但在TAG上获取高质量标注成本高昂,限制了其应用。LLM虽然具有强大的文本处理能力,但难以有效利用图的结构信息,直接应用效果不佳。

核心思路:论文的核心思路是结合LLM的零样本文本分类能力和GNN的结构信息处理能力,通过LLM初步过滤OOD节点,降低标注负担,然后利用少量标注数据训练GNN,提升OOD检测性能。这样既能减少人工标注成本,又能有效利用图的结构信息。

技术框架:LLM-GOOD框架包含以下几个主要阶段: 1. LLM过滤:利用LLM的零样本能力,对未标注节点进行初步的OOD判断,过滤掉一部分可能性较高的OOD节点。 2. GNN过滤器训练:使用LLM标注的一小部分带噪声的标签,训练一个轻量级的GNN过滤器,用于预测剩余未标注节点的ID状态。 3. 信息量节点选择:利用GNN过滤器得到的节点嵌入,使用基于信息量的方法选择最有价值的节点进行人工标注。 4. ID分类器训练:使用人工标注的ID节点训练最终的ID分类器。

关键创新:最重要的技术创新点在于结合了LLM和GNN的优势,利用LLM降低标注成本,利用GNN处理结构信息。与现有方法相比,LLM-GOOD在少样本场景下表现更好,更具实用性。

关键设计: * LLM选择:论文中使用的LLM的具体型号和prompt设计(未知)。 * GNN过滤器结构:GNN过滤器的具体网络结构(未知),但强调了轻量级的设计。 * 信息量节点选择方法:具体的信息量度量方法(未知)。 * 损失函数:GNN过滤器和ID分类器的损失函数(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM-GOOD在四个真实世界的文本属性图数据集上显著降低了人工标注成本,并在ID分类准确性和OOD检测性能方面均优于最先进的基线方法。具体的性能提升幅度(未知),但强调了其在少样本场景下的优势。

🎯 应用场景

该研究成果可应用于社交网络异常检测、金融欺诈检测、生物信息学疾病预测等领域。通过降低图数据标注成本,可以更高效地构建和维护图神经网络模型,提升相关应用的性能和可靠性,具有重要的实际应用价值和广泛的未来影响。

📄 摘要(原文)

Existing methods for graph out-of-distribution (OOD) detection typically depend on training graph neural network (GNN) classifiers using a substantial amount of labeled in-distribution (ID) data. However, acquiring high-quality labeled nodes in text-attributed graphs (TAGs) is challenging and costly due to their complex textual and structural characteristics. Large language models (LLMs), known for their powerful zero-shot capabilities in textual tasks, show promise but struggle to naturally capture the critical structural information inherent to TAGs, limiting their direct effectiveness. To address these challenges, we propose LLM-GOOD, a general framework that effectively combines the strengths of LLMs and GNNs to enhance data efficiency in graph OOD detection. Specifically, we first leverage LLMs' strong zero-shot capabilities to filter out likely OOD nodes, significantly reducing the human annotation burden. To minimize the usage and cost of the LLM, we employ it only to annotate a small subset of unlabeled nodes. We then train a lightweight GNN filter using these noisy labels, enabling efficient predictions of ID status for all other unlabeled nodes by leveraging both textual and structural information. After obtaining node embeddings from the GNN filter, we can apply informativeness-based methods to select the most valuable nodes for precise human annotation. Finally, we train the target ID classifier using these accurately annotated ID nodes. Extensive experiments on four real-world TAG datasets demonstrate that LLM-GOOD significantly reduces human annotation costs and outperforms state-of-the-art baselines in terms of both ID classification accuracy and OOD detection performance.