Few-Shot, No Problem: Descriptive Continual Relation Extraction

📄 arXiv: 2502.20596v1 📥 PDF

作者: Nguyen Xuan Thanh, Anh Duc Le, Quyen Tran, Thanh-Thien Le, Linh Ngo Van, Thien Huu Nguyen

分类: cs.CL

发布日期: 2025-02-27

备注: Accepted to AAAI 2025


💡 一句话要点

提出一种基于描述的持续关系抽取方法,解决少样本场景下的灾难性遗忘问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 持续学习 关系抽取 大型语言模型 知识图谱

📋 核心要点

  1. 现有少样本持续关系抽取方法易过拟合,且难以进行有效的数据增强。
  2. 利用大语言模型生成关系描述,并设计双编码器检索训练范式,增强样本和类表示。
  3. 通过检索关系描述向量和类原型,实现更准确的关系预测,有效缓解灾难性遗忘。

📝 摘要(中文)

少样本持续关系抽取是人工智能系统适应动态真实世界中不断演变关系的关键挑战。传统的基于记忆的方法通常过度拟合有限的样本,无法强化旧知识。少样本场景中数据的稀缺性进一步加剧了这些问题,阻碍了潜在空间中有效的数据增强。本文提出了一种新颖的基于检索的解决方案,首先使用大型语言模型为每个关系生成描述。从这些描述出发,我们引入了一种双编码器检索训练范式,以丰富样本和类表示学习。利用这些增强的表示,我们设计了一种基于检索的预测方法,其中每个样本通过互反排名融合分数“检索”最合适的关联关系,该分数集成了关系描述向量和类原型。在多个数据集上的大量实验表明,我们的方法通过在顺序任务中保持稳健的性能,有效地解决灾难性遗忘问题,从而显著推进了最先进水平。

🔬 方法详解

问题定义:论文旨在解决少样本持续关系抽取(Few-Shot Continual Relation Extraction)中存在的灾难性遗忘问题。现有方法,特别是基于记忆的方法,在样本数量有限的情况下容易过拟合,并且无法有效地保留和利用先前学习到的知识,导致在新任务上表现不佳。数据增强在少样本场景下也面临挑战,难以有效提升模型泛化能力。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成关系描述,并将这些描述用于增强样本和类别的表示学习。通过将关系表示为可理解的文本描述,模型可以更好地泛化到新的关系,并减少对特定样本的依赖。检索机制的引入使得模型能够根据样本的特征检索最相关的关系描述,从而提高预测的准确性。

技术框架:整体框架包含以下几个主要阶段: 1. 关系描述生成:使用LLM为每个关系生成文本描述。 2. 双编码器训练:构建双编码器模型,分别编码样本和关系描述,并通过检索训练优化表示。 3. 关系预测:对于新的样本,计算其与所有关系描述的相似度,并结合类原型信息,使用互反排名融合(Reciprocal Rank Fusion)进行关系预测。

关键创新:该方法最重要的创新点在于利用LLM生成的关系描述来增强表示学习,并结合检索机制进行关系预测。这与传统方法依赖于有限的样本进行训练不同,通过引入外部知识(关系描述),提高了模型的泛化能力和鲁棒性。双编码器检索训练范式和互反排名融合策略也是关键的创新点。

关键设计: * 关系描述生成:具体使用的LLM模型和生成策略(例如prompt engineering)未知。 * 双编码器:样本编码器和关系描述编码器的具体网络结构未知,但目标是学习到能够有效捕捉样本和关系语义信息的表示向量。 * 损失函数:双编码器的训练可能使用了对比学习或类似的损失函数,以拉近相似样本和关系描述的距离,推远不相似的样本和关系描述。 * 互反排名融合:具体融合的权重和策略未知,但目标是综合考虑样本与关系描述的相似度和样本与类原型的相似度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个数据集上显著优于现有方法,尤其是在持续学习场景下,能够有效缓解灾难性遗忘问题。具体的性能提升数据未知,但摘要中提到“significantly advances the state-of-the-art by maintaining robust performance across sequential tasks”。

🎯 应用场景

该研究成果可应用于知识图谱构建、信息抽取、智能问答等领域。在实际应用中,可以帮助系统自动识别和理解新的关系,从而不断扩展知识库,提高智能服务的质量。例如,在医疗领域,可以用于识别药物之间的相互作用;在金融领域,可以用于分析公司之间的关联关系。该方法在持续学习场景下的优势,使其能够适应不断变化的数据环境。

📄 摘要(原文)

Few-shot Continual Relation Extraction is a crucial challenge for enabling AI systems to identify and adapt to evolving relationships in dynamic real-world domains. Traditional memory-based approaches often overfit to limited samples, failing to reinforce old knowledge, with the scarcity of data in few-shot scenarios further exacerbating these issues by hindering effective data augmentation in the latent space. In this paper, we propose a novel retrieval-based solution, starting with a large language model to generate descriptions for each relation. From these descriptions, we introduce a bi-encoder retrieval training paradigm to enrich both sample and class representation learning. Leveraging these enhanced representations, we design a retrieval-based prediction method where each sample "retrieves" the best fitting relation via a reciprocal rank fusion score that integrates both relation description vectors and class prototypes. Extensive experiments on multiple datasets demonstrate that our method significantly advances the state-of-the-art by maintaining robust performance across sequential tasks, effectively addressing catastrophic forgetting.