Automatic Ontology Construction Using LLMs as an External Layer of Memory, Verification, and Planning for Hybrid Intelligent Systems

📄 arXiv: 2604.20795v1 📥 PDF

作者: Pavel Salovskii, Iuliia Gorshkova

分类: cs.AI

发布日期: 2026-04-22

备注: Artificial Intelligence; Knowledge Representation and Reasoning; Information Retrieval; Machine Learning

DOI: 10.5281/zenodo.19696042


💡 一句话要点

提出一种混合智能系统架构,利用LLM和外部本体知识库实现可验证的推理和规划。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识图谱 本体构建 混合智能系统 推理验证

📋 核心要点

  1. 现有LLM系统缺乏长期记忆、结构理解能力弱,推理能力有限,难以满足复杂任务需求。
  2. 论文提出利用外部本体知识库增强LLM,构建混合智能系统,实现持久、可验证和语义化的推理。
  3. 实验表明,在规划任务中,本体增强提高了多步推理场景中的性能,并支持输出的形式验证。

📝 摘要(中文)

本文提出了一种混合智能系统架构,该架构通过外部本体知识层扩展大型语言模型(LLM)。该方法不依赖于参数知识和基于向量的检索(RAG),而是使用RDF/OWL表示构建和维护结构化的知识图谱,从而实现持久、可验证和语义化的推理。核心贡献在于一个自动化的本体构建流程,该流程从异构数据源(包括文档、API和对话日志)中提取信息。系统执行实体识别、关系抽取、规范化和三元组生成,然后使用SHACL和OWL约束进行验证,并持续更新图谱。在推理过程中,LLM在结合了基于向量的检索、基于图的推理和外部工具交互的上下文中运行。在包括汉诺塔基准测试在内的规划任务上的实验表明,与基线LLM系统相比,本体增强提高了多步推理场景中的性能。此外,本体层能够对生成的输出进行形式验证,从而将系统转换为生成-验证-纠正流程。所提出的架构解决了当前基于LLM的系统的关键局限性,包括缺乏长期记忆、结构理解薄弱和推理能力有限。它为构建基于代理的系统、机器人应用和需要持久知识、可解释性和可靠决策的企业AI解决方案奠定了基础。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在处理需要长期记忆、结构化知识和复杂推理的任务时存在局限性。它们依赖于参数知识和向量检索,缺乏对知识的结构化表示和推理能力,难以保证生成结果的可靠性和可解释性。

核心思路:论文的核心思路是利用外部本体知识库来增强LLM。通过构建和维护一个结构化的知识图谱,LLM可以利用图谱中的知识进行推理和验证,从而提高其在复杂任务中的性能和可靠性。这种方法将LLM的生成能力与知识图谱的推理能力相结合,形成一个混合智能系统。

技术框架:该系统包含一个自动化的本体构建流程和一个基于本体的推理框架。本体构建流程从异构数据源(如文档、API和对话日志)中提取信息,执行实体识别、关系抽取、规范化和三元组生成,然后使用SHACL和OWL约束进行验证,并持续更新图谱。推理框架将基于向量的检索、基于图的推理和外部工具交互相结合,为LLM提供更丰富的上下文信息。LLM在结合了这些信息的上下文中运行,生成结果,并通过本体进行验证和纠正。

关键创新:该论文的关键创新在于将LLM与外部本体知识库相结合,构建了一个混合智能系统。这种方法不仅利用了LLM的生成能力,还利用了知识图谱的推理能力,从而提高了系统的性能和可靠性。此外,该论文还提出了一个自动化的本体构建流程,可以从异构数据源中提取知识,并将其组织成结构化的知识图谱。

关键设计:本体构建流程的关键设计包括:1) 使用LLM进行实体识别和关系抽取;2) 使用SHACL和OWL约束进行知识验证;3) 使用增量更新策略来维护知识图谱。推理框架的关键设计包括:1) 将基于向量的检索和基于图的推理相结合;2) 使用外部工具进行知识查询和验证;3) 使用生成-验证-纠正流程来提高生成结果的质量。

📊 实验亮点

实验结果表明,在汉诺塔规划任务中,与基线LLM系统相比,该方法通过本体增强提高了多步推理场景中的性能。此外,本体层能够对生成的输出进行形式验证,将系统转换为生成-验证-纠正流程,显著提升了生成结果的准确性和可靠性。具体性能数据未知,但论文强调了本体增强带来的显著改进。

🎯 应用场景

该研究成果可应用于多种领域,如智能客服、机器人导航、企业知识管理和智能决策支持系统。通过结合LLM的生成能力和本体知识库的推理能力,可以构建更智能、更可靠的AI系统,提升自动化水平和决策质量,尤其适用于需要持久知识、可解释性和可靠决策的场景。

📄 摘要(原文)

This paper presents a hybrid architecture for intelligent systems in which large language models (LLMs) are extended with an external ontological memory layer. Instead of relying solely on parametric knowledge and vector-based retrieval (RAG), the proposed approach constructs and maintains a structured knowledge graph using RDF/OWL representations, enabling persistent, verifiable, and semantically grounded reasoning. The core contribution is an automated pipeline for ontology construction from heterogeneous data sources, including documents, APIs, and dialogue logs. The system performs entity recognition, relation extraction, normalization, and triple generation, followed by validation using SHACL and OWL constraints, and continuous graph updates. During inference, LLMs operate over a combined context that integrates vector-based retrieval with graph-based reasoning and external tool interaction. Experimental observations on planning tasks, including the Tower of Hanoi benchmark, indicate that ontology augmentation improves performance in multi-step reasoning scenarios compared to baseline LLM systems. In addition, the ontology layer enables formal validation of generated outputs, transforming the system into a generation-verification-correction pipeline. The proposed architecture addresses key limitations of current LLM-based systems, including lack of long-term memory, weak structural understanding, and limited reasoning capabilities. It provides a foundation for building agent-based systems, robotics applications, and enterprise AI solutions that require persistent knowledge, explainability, and reliable decision-making.