Enriching Taxonomies Using Large Language Models

📄 arXiv: 2602.22213 📥 PDF

作者: Zeinab Ghamlouch, Mehwish Alam

分类: cs.IR, cs.AI, cs.CL

发布日期: 2026-02-28


💡 一句话要点

Taxoria:利用大型语言模型丰富现有分类体系,提升知识检索效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分类体系 大型语言模型 知识检索 分类增强 提示工程

📋 核心要点

  1. 现有分类体系存在覆盖范围有限、节点过时或含义模糊等问题,降低了知识检索的有效性。
  2. Taxoria以现有分类体系为基础,提示LLM生成候选节点,并通过验证机制确保语义相关性,从而丰富分类体系。
  3. Taxoria提供溯源跟踪和可视化功能,方便分析和理解最终的分类体系,提升了分类体系的可用性。

📝 摘要(中文)

本文提出了一种名为Taxoria的新型分类体系丰富流程,它利用大型语言模型(LLM)来增强现有的分类体系。与提取LLM内部分类体系的方法不同,Taxoria使用现有的分类体系作为种子,并提示LLM提出用于丰富分类体系的候选节点。这些候选节点经过验证,以减轻幻觉并确保语义相关性,然后进行整合。最终输出包括一个丰富的分类体系,其中包含溯源跟踪和最终合并分类体系的可视化,以供分析。

🔬 方法详解

问题定义:现有分类体系在知识检索中扮演重要角色,但普遍存在覆盖范围不足、节点定义过时或含义模糊等问题,严重影响了知识检索的效率和准确性。现有方法要么依赖人工构建,成本高昂且难以维护,要么直接从LLM中提取分类体系,但缺乏对LLM生成内容的有效控制,容易引入幻觉和不相关信息。

核心思路:Taxoria的核心思路是利用现有分类体系作为种子,引导LLM生成新的候选节点,并通过严格的验证机制过滤掉不相关或错误的节点,从而在保证语义一致性的前提下,有效地扩展和丰富现有分类体系。这种方法结合了现有分类体系的结构化信息和LLM的生成能力,避免了完全依赖LLM可能带来的问题。

技术框架:Taxoria包含以下主要阶段:1) 种子分类体系输入:输入需要丰富和扩展的现有分类体系。2) LLM提示生成:利用种子分类体系,设计合适的提示语,引导LLM生成候选节点。3) 候选节点验证:对LLM生成的候选节点进行验证,包括语义相关性检查、幻觉检测等,确保节点的质量。4) 分类体系整合:将验证通过的候选节点整合到现有分类体系中,并进行溯源跟踪和可视化。

关键创新:Taxoria的关键创新在于其以现有分类体系为基础,通过提示工程引导LLM进行增量式扩展,并引入验证机制来控制LLM的生成质量。这与直接从LLM中提取分类体系的方法不同,Taxoria能够更好地利用现有知识,并避免LLM的幻觉问题。

关键设计:Taxoria的关键设计包括:1) 提示语设计:如何设计有效的提示语,引导LLM生成高质量的候选节点?这可能涉及到不同的提示策略和模板。2) 验证机制:如何设计有效的验证机制,自动或半自动地过滤掉不相关或错误的节点?这可能涉及到语义相似度计算、知识图谱查询等技术。3) 溯源跟踪:如何记录每个节点的来源和生成过程,方便用户理解和评估分类体系的质量?

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文提出了一种新颖的分类体系丰富流程Taxoria,它利用大型语言模型(LLM)来增强现有的分类体系。通过以现有分类体系为种子,并提示LLM提出候选节点,然后进行验证以减轻幻觉并确保语义相关性,最终输出一个丰富的分类体系。实验结果(具体数据未知)表明,Taxoria能够有效地扩展现有分类体系,并提高知识检索的性能。

🎯 应用场景

Taxoria可应用于各种需要分类体系的领域,例如:电商平台的商品分类、医学知识库的疾病分类、法律领域的法规分类等。通过自动或半自动地丰富和更新分类体系,Taxoria可以提高知识检索的效率和准确性,帮助用户更快地找到所需信息,并促进相关领域的研究和应用。

📄 摘要(原文)

Taxonomies play a vital role in structuring and categorizing information across domains. However, many existing taxonomies suffer from limited coverage and outdated or ambiguous nodes, reducing their effectiveness in knowledge retrieval. To address this, we present Taxoria, a novel taxonomy enrichment pipeline that leverages Large Language Models (LLMs) to enhance a given taxonomy. Unlike approaches that extract internal LLM taxonomies, Taxoria uses an existing taxonomy as a seed and prompts an LLM to propose candidate nodes for enrichment. These candidates are then validated to mitigate hallucinations and ensure semantic relevance before integration. The final output includes an enriched taxonomy with provenance tracking and visualization of the final merged taxonomy for analysis.