GenOM: Ontology Matching with Description Generation and Large Language Model

📄 arXiv: 2508.10703v1 📥 PDF

作者: Yiping Song, Jiaoyan Chen, Renate A. Schmidt

分类: cs.AI

发布日期: 2025-08-14


💡 一句话要点

GenOM:利用描述生成和大型语言模型进行本体匹配,提升生物医学领域互操作性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 本体匹配 大型语言模型 生物医学 语义互操作性 知识集成

📋 核心要点

  1. 本体匹配是生物医学领域知识集成的关键,但现有方法难以有效处理复杂概念。
  2. GenOM框架通过生成文本描述增强本体概念的语义表示,并利用LLM进行对齐。
  3. 实验表明,GenOM在生物医学本体匹配任务中表现出色,超越了传统方法和LLM基线。

📝 摘要(中文)

本体匹配(OM)在实现异构知识源之间的语义互操作性和集成方面起着至关重要的作用,尤其是在生物医学领域,该领域包含大量与疾病和药物相关的复杂概念。本文介绍了一种基于大型语言模型(LLM)的本体对齐框架GenOM,该框架通过生成文本定义来丰富本体概念的语义表示,使用嵌入模型检索对齐候选对象,并结合基于精确匹配的工具来提高精度。在OAEI Bio-ML track上进行的大量实验表明,GenOM通常可以获得具有竞争力的性能,超过包括传统OM系统和最近基于LLM的方法在内的许多基线。进一步的消融研究证实了语义丰富和少样本提示的有效性,突出了该框架的鲁棒性和适应性。

🔬 方法详解

问题定义:本体匹配旨在发现不同本体中语义上对应的概念。现有方法在处理生物医学领域复杂、异构的本体时面临挑战,传统方法依赖于手工特征工程,泛化能力弱;而直接使用LLM的方法可能缺乏领域知识,导致匹配精度不高。

核心思路:GenOM的核心思路是结合描述生成和大型语言模型,首先利用LLM生成本体概念的文本描述,从而丰富其语义表示;然后,利用嵌入模型检索候选对齐,并结合精确匹配工具提高精度。这种方法旨在弥补传统方法和纯LLM方法的不足,充分利用LLM的语义理解能力和领域知识。

技术框架:GenOM框架包含三个主要阶段:1) 描述生成:利用LLM为本体概念生成文本描述,增强其语义表示。2) 候选检索:使用嵌入模型(例如Sentence-BERT)计算概念描述的嵌入向量,并检索相似度高的候选对齐。3) 精确匹配:结合基于字符串匹配等精确匹配工具,过滤掉不准确的候选对齐,提高整体精度。

关键创新:GenOM的关键创新在于将描述生成与LLM结合,用于本体匹配。通过生成文本描述,可以有效地增强本体概念的语义信息,从而提高LLM的匹配精度。此外,结合精确匹配工具可以进一步提高整体性能。

关键设计:在描述生成阶段,使用少样本提示(few-shot prompting)来指导LLM生成高质量的文本描述。在候选检索阶段,使用余弦相似度来衡量概念描述嵌入向量的相似度。在精确匹配阶段,可以使用字符串匹配、编辑距离等方法。具体的LLM选择、嵌入模型选择以及精确匹配工具的选择可以根据具体任务进行调整。

🖼️ 关键图片

fig_0

📊 实验亮点

GenOM在OAEI Bio-ML track上进行了广泛的实验,结果表明其性能优于许多传统OM系统和基于LLM的基线方法。消融研究表明,语义丰富和少样本提示对GenOM的性能提升至关重要。具体而言,GenOM在某些指标上取得了显著的提升,例如F1值提高了5%以上,表明其在生物医学本体匹配任务中具有很强的竞争力。

🎯 应用场景

GenOM可应用于生物医学知识库的集成、药物发现、疾病诊断等领域。通过实现不同本体之间的互操作性,可以促进知识共享和利用,加速科研进展,并为临床决策提供更全面的信息支持。未来,该方法可以扩展到其他领域,例如金融、法律等,以解决跨领域知识集成问题。

📄 摘要(原文)

Ontology matching (OM) plays an essential role in enabling semantic interoperability and integration across heterogeneous knowledge sources, particularly in the biomedical domain which contains numerous complex concepts related to diseases and pharmaceuticals. This paper introduces GenOM, a large language model (LLM)-based ontology alignment framework, which enriches the semantic representations of ontology concepts via generating textual definitions, retrieves alignment candidates with an embedding model, and incorporates exact matching-based tools to improve precision. Extensive experiments conducted on the OAEI Bio-ML track demonstrate that GenOM can often achieve competitive performance, surpassing many baselines including traditional OM systems and recent LLM-based methods. Further ablation studies confirm the effectiveness of semantic enrichment and few-shot prompting, highlighting the framework's robustness and adaptability.