Graph-based Retrieval Augmented Generation for Dynamic Few-shot Text Classification

📄 arXiv: 2501.02844v3 📥 PDF

作者: Yubo Wang, Haoyang Li, Fei Teng, Lei Chen

分类: cs.CL, cs.IR, cs.LG

发布日期: 2025-01-06 (更新: 2025-02-14)


💡 一句话要点

提出GORAG:一种基于图检索增强生成框架,用于动态少样本文本分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本分类 少样本学习 图神经网络 检索增强生成 大型语言模型

📋 核心要点

  1. 现有文本分类模型依赖大量标注数据,在动态少样本场景下表现不佳,无法适应新标签的快速出现。
  2. GORAG构建加权图,节点表示关键词和标签,边表示相关性,通过最小成本生成树动态检索上下文。
  3. 实验结果表明,GORAG优于现有方法,能够提供更全面和精确的上下文信息,提升分类性能。

📝 摘要(中文)

本文提出了一种基于图的在线检索增强生成框架GORAG,用于动态少样本文本分类。文本分类是数据挖掘中的一项基本任务,对于表格理解和推荐等各种应用至关重要。虽然基于神经网络的模型(如CNN和BERT)在文本分类中表现出色,但其有效性严重依赖于大量的标注训练数据。这种依赖性使得这些模型在动态少样本文本分类中效果不佳,因为标注数据稀缺,并且新的目标标签经常根据应用需求出现。最近,大型语言模型(LLM)由于其广泛的预训练和上下文理解能力而显示出希望。当前的方法为LLM提供文本输入、候选标签和额外的辅助信息(例如,描述)来对文本进行分类。然而,它们的有效性受到输入大小增加和通过辅助信息处理引入的噪声的阻碍。为了解决这些限制,GORAG通过提取所有目标文本的辅助信息来构建和维护一个加权图。在该图中,文本关键词和标签表示为节点,边表示它们之间的相关性。为了对这些相关性进行建模,GORAG采用边缘加权机制来优先考虑提取信息的重性和可靠性,并使用针对每个文本输入量身定制的最小成本生成树动态检索相关上下文。实验评估表明,GORAG通过提供更全面和精确的上下文信息,优于现有方法。

🔬 方法详解

问题定义:论文旨在解决动态少样本文本分类问题。现有基于神经网络的模型和直接使用LLM的方法在标注数据稀缺或标签动态变化的情况下表现不佳。神经网络模型需要大量标注数据进行训练,而直接使用LLM的方法会因输入长度限制和辅助信息噪声而受到影响。

核心思路:论文的核心思路是利用图结构来表示文本关键词、标签以及它们之间的关系,并通过图检索来增强LLM的生成能力。通过构建加权图,模型可以有效地利用少量样本中的信息,并动态地检索与当前输入文本相关的上下文。

技术框架:GORAG框架主要包含以下几个阶段:1) 图构建:从所有目标文本中提取关键词和标签,构建加权图,其中节点表示关键词和标签,边表示它们之间的相关性。2) 边权重计算:采用边缘加权机制来优先考虑提取信息的重性和可靠性。3) 上下文检索:使用最小成本生成树算法,为每个文本输入动态检索相关的上下文信息。4) 生成分类:将检索到的上下文信息输入LLM,生成文本的类别标签。

关键创新:该方法最重要的创新点在于使用图结构来表示和利用文本之间的关系,并通过图检索来增强LLM的生成能力。与现有方法相比,GORAG能够更有效地利用少量样本中的信息,并动态地适应新的标签。

关键设计:论文的关键设计包括:1) 图的构建方式:如何有效地提取关键词和标签,以及如何确定节点之间的连接关系。2) 边权重计算方法:如何根据信息的重性和可靠性来确定边的权重。3) 最小成本生成树算法:如何选择合适的算法来动态检索相关的上下文信息。4) LLM的选择和微调策略:如何选择合适的LLM,并对其进行微调,以适应特定的文本分类任务。具体参数设置、损失函数和网络结构等细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GORAG在动态少样本文本分类任务中优于现有方法。具体性能数据和对比基线在摘要中未给出,提升幅度未知。但结论是GORAG通过提供更全面和精确的上下文信息,显著提升了分类性能。

🎯 应用场景

GORAG框架可应用于各种需要动态少样本文本分类的场景,例如:在线客服系统中快速识别用户意图,金融领域中识别新型欺诈行为,以及在推荐系统中对新出现的商品或内容进行分类。该研究有助于降低对大量标注数据的依赖,提高文本分类系统的灵活性和适应性。

📄 摘要(原文)

Text classification is a fundamental task in data mining, pivotal to various applications such as tabular understanding and recommendation. Although neural network-based models, such as CNN and BERT, have demonstrated remarkable performance in text classification, their effectiveness heavily relies on abundant labeled training data. This dependency makes these models less effective in dynamic few-shot text classification, where labeled data is scarce, and new target labels frequently appear based on application needs. Recently, large language models (LLMs) have shown promise due to their extensive pretraining and contextual understanding ability. Current approaches provide LLMs with text inputs, candidate labels, and additional side information (e.g., descriptions) to classify texts. However, their effectiveness is hindered by the increased input size and the noise introduced through side information processing. To address these limitations, we propose a graph-based online retrieval-augmented generation framework, namely GORAG, for dynamic few-shot text classification. Rather than treating each input independently, GORAG constructs and maintains a weighted graph by extracting side information across all target texts. In this graph, text keywords and labels are represented as nodes, with edges indicating the correlations between them. To model these correlations, GORAG employs an edge weighting mechanism to prioritize the importance and reliability of extracted information and dynamically retrieves relevant context using a minimum-cost spanning tree tailored for each text input. Empirical evaluations demonstrate that GORAG outperforms existing approaches by providing more comprehensive and precise contextual information.