ODKE+: Ontology-Guided Open-Domain Knowledge Extraction with LLMs
作者: Samira Khorshidi, Azadeh Nikfarjam, Suprita Shankar, Yisi Sang, Yash Govind, Hyun Jang, Ali Kasgari, Alexis McClimans, Mohamed Soliman, Vishnu Konda, Ahmed Fakhry, Xiaoguang Qi
分类: cs.CL, cs.AI
发布日期: 2025-09-04
💡 一句话要点
ODKE+:利用LLM和本体指导的开放域知识抽取系统,实现大规模高精度知识图谱构建。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放域知识抽取 知识图谱构建 大型语言模型 本体指导 信息抽取
📋 核心要点
- 现有知识图谱维护成本高昂,难以保证新鲜度和完整性,阻碍了其在AI应用中的广泛应用。
- ODKE+通过模块化流水线,结合模式规则和本体指导的LLM提示,实现高效、准确的开放域知识抽取。
- ODKE+在实际部署中表现出色,显著提高了知识图谱的覆盖率和更新速度,验证了其有效性。
📝 摘要(中文)
知识图谱(KGs)是许多人工智能应用的基础,但保持其新鲜度和完整性仍然成本高昂。我们提出了ODKE+,一个生产级别的系统,可以自动从网络来源提取和摄取数百万条高精度的开放域事实。ODKE+将模块化组件组合成一个可扩展的流水线:(1)抽取启动器检测缺失或过时的事实,(2)证据检索器收集支持文档,(3)混合知识抽取器应用基于模式的规则和本体指导的提示来使用大型语言模型(LLMs),(4)一个轻量级的Grounder使用第二个LLM来验证提取的事实,(5)校对者对候选事实进行排序和规范化以便摄取。ODKE+动态生成针对每个实体类型定制的本体片段,以使抽取与模式约束对齐,从而实现跨195个谓词的可扩展、类型一致的事实抽取。该系统支持批量和流模式,处理超过900万个维基百科页面,并摄取1900万个高置信度的的事实,精度为98.8%。ODKE+显著提高了对传统方法的覆盖率,与第三方KG的重叠率高达48%,平均减少了50天的更新延迟。我们的部署表明,基于本体结构和验证工作流程的基于LLM的抽取可以提供可信赖的、生产规模的知识摄取,具有广泛的实际应用。
🔬 方法详解
问题定义:论文旨在解决开放域知识图谱构建中,现有方法抽取效率低、精度不足、更新滞后等问题。传统方法依赖人工标注或简单的模式匹配,难以应对海量信息和复杂语义关系,导致知识图谱覆盖率低、更新速度慢,无法满足实际应用需求。
核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大语义理解和生成能力,结合本体知识的约束和指导,构建一个可扩展、高精度的开放域知识抽取流水线。通过本体指导,LLM能够更好地理解实体类型和关系,从而生成更准确的事实。
技术框架:ODKE+系统包含以下主要模块:(1) 抽取启动器:检测知识图谱中缺失或过时的信息,触发抽取任务。(2) 证据检索器:从网络资源中检索与目标实体相关的文档,作为LLM抽取的输入。(3) 混合知识抽取器:结合基于模式的规则和本体指导的LLM提示,从文档中抽取候选事实。(4) Grounder:使用另一个LLM验证抽取的事实,过滤掉错误或不一致的信息。(5) 校对者:对候选事实进行排序、归一化和去重,最终将高质量的事实添加到知识图谱中。
关键创新:ODKE+的关键创新在于将本体知识融入到LLM的提示中,动态生成针对每个实体类型的本体片段,引导LLM进行类型一致的事实抽取。这种方法不仅提高了抽取精度,还保证了知识图谱的结构化和一致性。此外,系统采用模块化设计,易于扩展和维护。
关键设计:ODKE+的关键设计包括:(1) 本体片段生成:根据实体类型动态生成本体片段,作为LLM的上下文信息。(2) 混合抽取策略:结合基于模式的规则和LLM提示,充分利用两者的优势。(3) 轻量级Grounder:使用第二个LLM进行事实验证,降低计算成本。(4) 可扩展的流水线架构:支持批量和流模式,能够处理大规模数据。
🖼️ 关键图片
📊 实验亮点
ODKE+在实际部署中表现出色,处理了超过900万个维基百科页面,并成功摄取了1900万个高置信度的的事实,精度高达98.8%。与传统方法相比,ODKE+显著提高了知识图谱的覆盖率,与第三方知识图谱的重叠率高达48%,平均减少了50天的更新延迟。这些结果表明,ODKE+是一种高效、准确的开放域知识抽取系统。
🎯 应用场景
ODKE+可应用于多种场景,如智能问答、推荐系统、搜索引擎优化等。通过构建高质量的开放域知识图谱,可以提升AI应用的智能化水平和用户体验。该系统还可用于知识图谱的自动更新和维护,降低人工成本,提高知识图谱的时效性。未来,ODKE+有望成为构建大规模知识图谱的重要基础设施。
📄 摘要(原文)
Knowledge graphs (KGs) are foundational to many AI applications, but maintaining their freshness and completeness remains costly. We present ODKE+, a production-grade system that automatically extracts and ingests millions of open-domain facts from web sources with high precision. ODKE+ combines modular components into a scalable pipeline: (1) the Extraction Initiator detects missing or stale facts, (2) the Evidence Retriever collects supporting documents, (3) hybrid Knowledge Extractors apply both pattern-based rules and ontology-guided prompting for large language models (LLMs), (4) a lightweight Grounder validates extracted facts using a second LLM, and (5) the Corroborator ranks and normalizes candidate facts for ingestion. ODKE+ dynamically generates ontology snippets tailored to each entity type to align extractions with schema constraints, enabling scalable, type-consistent fact extraction across 195 predicates. The system supports batch and streaming modes, processing over 9 million Wikipedia pages and ingesting 19 million high-confidence facts with 98.8% precision. ODKE+ significantly improves coverage over traditional methods, achieving up to 48% overlap with third-party KGs and reducing update lag by 50 days on average. Our deployment demonstrates that LLM-based extraction, grounded in ontological structure and verification workflows, can deliver trustworthiness, production-scale knowledge ingestion with broad real-world applicability. A recording of the system demonstration is included with the submission and is also available at https://youtu.be/UcnE3_GsTWs.