CodeTaxo: Enhancing Taxonomy Expansion with Limited Examples via Code Language Prompts

📄 arXiv: 2408.09070v2 📥 PDF

作者: Qingkai Zeng, Yuyang Bai, Zhaoxuan Tan, Zhenyu Wu, Shangbin Feng, Meng Jiang

分类: cs.CL, cs.IR

发布日期: 2024-08-17 (更新: 2025-05-26)

备注: Accepted by ACL2025 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

CodeTaxo:利用代码语言提示增强小样本下的分类体系扩展

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分类体系扩展 大型语言模型 代码语言提示 小样本学习 知识图谱

📋 核心要点

  1. 现有分类体系扩展方法在小规模分类体系上表现不佳,主要依赖自监督数据生成。
  2. CodeTaxo利用代码语言提示,驱动大型语言模型学习和理解分类体系的结构。
  3. 实验表明,CodeTaxo在多个真实数据集上显著超越现有技术,性能提升明显。

📝 摘要(中文)

分类体系在各种应用中通过提供知识的结构化表示发挥着关键作用。分类体系扩展的任务涉及将新兴概念整合到现有分类体系中,方法是为这些新的查询概念识别合适的父概念。以往的方法通常依赖于自监督方法,这些方法从现有的分类体系中生成标注数据。然而,当现有分类体系很小(少于100个实体)时,这些方法的效果较差。在这项工作中,我们介绍了一种新颖的方法CodeTaxo,它通过代码语言提示利用大型语言模型来捕获分类结构。在来自不同领域的五个真实世界基准上的大量实验表明,CodeTaxo在所有评估指标上始终如一地实现了卓越的性能,显著优于以往最先进的方法。代码和数据可在https://github.com/QingkaiZeng/CodeTaxo-Pub获取。

🔬 方法详解

问题定义:论文旨在解决小样本情况下分类体系扩展的问题。现有方法,特别是基于自监督学习的方法,在现有分类体系规模较小(例如,少于100个实体)时,性能显著下降。这些方法依赖于从现有分类体系中生成伪标签数据,而小规模的分类体系提供的可用信息有限,导致生成的伪标签质量不高,进而影响模型性能。

核心思路:CodeTaxo的核心思路是利用大型语言模型(LLM)的强大知识和推理能力,通过精心设计的代码语言提示,引导LLM理解和推断分类体系的结构。通过将分类体系扩展任务转化为LLM可以理解和执行的代码生成或补全任务,从而克服小样本数据的限制。

技术框架:CodeTaxo的整体框架包含以下几个主要步骤:1) Prompt构建:根据给定的查询概念和现有分类体系,构建包含代码语言提示的输入。这些提示旨在引导LLM生成或补全能够体现分类关系的结构化代码。2) LLM推理:将构建好的prompt输入到LLM中,利用LLM的生成能力,生成或补全相应的代码片段。3) 结果解析:解析LLM生成的代码片段,提取出查询概念的父概念。4) 后处理:对提取出的父概念进行过滤和排序,选择最合适的父概念。

关键创新:CodeTaxo的关键创新在于利用代码语言提示来引导LLM进行分类体系扩展。与以往方法直接利用文本信息或依赖自监督数据生成不同,CodeTaxo将分类体系扩展任务转化为LLM擅长的代码生成或补全任务,从而更好地利用LLM的知识和推理能力。这种方法尤其适用于小样本情况,因为LLM可以从其预训练的知识中获取大量信息,弥补小样本数据的不足。

关键设计:CodeTaxo的关键设计包括:1) 代码语言提示的设计:需要精心设计代码语言提示,以确保LLM能够准确理解分类体系扩展的任务,并生成或补全符合要求的代码片段。例如,可以使用Python代码来表示分类关系,并要求LLM补全代码,以确定查询概念的父概念。2) LLM的选择:选择具有强大代码生成和理解能力的LLM,例如GPT-3或CodeX。3) 结果解析和后处理:需要设计有效的算法来解析LLM生成的代码片段,并对提取出的父概念进行过滤和排序,以提高分类体系扩展的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CodeTaxo在五个真实世界基准数据集上进行了评估,实验结果表明,CodeTaxo在所有评估指标上都显著优于现有的最先进方法。具体来说,CodeTaxo在某些数据集上的性能提升超过了10%,证明了其在小样本分类体系扩展方面的有效性。

🎯 应用场景

CodeTaxo可应用于知识图谱构建、产品分类、医学诊断等领域。在知识图谱构建中,可以自动将新的实体添加到现有的知识图谱中,扩展知识图谱的覆盖范围。在产品分类中,可以自动将新的产品归类到合适的类别下,提高产品管理的效率。在医学诊断中,可以辅助医生诊断新的疾病,提高诊断的准确性。该研究的未来影响在于降低了分类体系扩展对数据量的依赖,使得在资源匮乏的领域也能构建高质量的分类体系。

📄 摘要(原文)

Taxonomies play a crucial role in various applications by providing a structural representation of knowledge. The task of taxonomy expansion involves integrating emerging concepts into existing taxonomies by identifying appropriate parent concepts for these new query concepts. Previous approaches typically relied on self-supervised methods that generate annotation data from existing taxonomies. However, these methods are less effective when the existing taxonomy is small (fewer than 100 entities). In this work, we introduce CodeTaxo, a novel approach that leverages large language models through code language prompts to capture the taxonomic structure. Extensive experiments on five real-world benchmarks from different domains demonstrate that CodeTaxo consistently achieves superior performance across all evaluation metrics, significantly outperforming previous state-of-the-art methods. The code and data are available at https://github.com/QingkaiZeng/CodeTaxo-Pub.