OntoMetric: An Ontology-Driven LLM-Assisted Framework for Automated ESG Metric Knowledge Graph Generation

📄 arXiv: 2512.01289v2 📥 PDF

作者: Mingqin Yu, Fethi Rabhi, Boming Xia, Zhengyi Yang, Felix Tan, Qinghua Lu

分类: cs.AI, cs.GR

发布日期: 2025-12-01 (更新: 2026-01-26)


💡 一句话要点

OntoMetric:一种本体驱动的LLM辅助框架,用于自动生成ESG指标知识图谱

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: ESG指标 知识图谱 大型语言模型 本体驱动 自动构建

📋 核心要点

  1. 现有ESG知识图谱构建方法缺乏可扩展性,且依赖人工,而无约束的LLM提取易产生语义错误和结构无效的图。
  2. OntoMetric框架利用ESG本体作为约束,指导LLM进行知识提取和图谱构建,确保语义准确性和结构有效性。
  3. 实验表明,OntoMetric在语义准确率和模式合规性方面显著优于无约束的LLM提取,并大幅提高了效率。

📝 摘要(中文)

环境、社会和治理(ESG)指标知识本质上是结构化的,它通过组合依赖性连接行业、报告框架、指标类别、指标和计算模型。然而,在实践中,这种结构仍然隐式地嵌入在SASB、TCFD和IFRS S2等监管文件中,很少以显式的、受治理的或机器可操作的形式存在。现有的ESG本体定义了正式的模式,但没有解决来自权威监管来源的可扩展填充和治理问题,而无约束的大型语言模型(LLM)提取经常产生语义上不正确的实体、幻觉关系和结构上无效的图。OntoMetric是一个本体指导的框架,用于从监管文件中自动构建和治理ESG指标知识图谱,它将ESG指标知识图谱(ESGMKG)本体作为一等约束直接嵌入到提取和填充过程中。该框架集成了结构感知分割、本体约束的LLM提取(富含语义字段和确定性标识符)以及结合语义类型验证和基于规则的模式检查的两阶段验证,同时保留段级别和页级别的出处,以确保可追溯到监管源文本。在五个ESG监管标准上的评估表明,本体指导的提取实现了65-90%的语义准确率和超过80%的模式合规性,而无约束的基线提取的语义准确率仅为3-10%,并且成本效率稳定,每个验证实体的成本为0.01-0.02美元,效率比基线提高了48倍。

🔬 方法详解

问题定义:论文旨在解决从ESG监管文件中自动构建高质量ESG指标知识图谱的问题。现有方法,如人工构建成本高昂且难以扩展,而直接使用LLM进行知识抽取容易产生语义错误、幻觉关系以及结构不合规的知识图谱,无法满足实际应用需求。

核心思路:论文的核心思路是将ESG领域本体作为先验知识和约束条件,指导LLM进行知识抽取和图谱构建。通过本体约束,可以有效减少LLM的幻觉问题,提高抽取结果的语义准确性和结构有效性,从而实现高质量的ESG指标知识图谱的自动构建。

技术框架:OntoMetric框架包含以下主要模块:1) 结构感知分割:将ESG监管文档分割成结构化的段落。2) 本体约束的LLM提取:利用本体指导LLM进行实体和关系的抽取,并使用语义字段和确定性标识符丰富抽取结果。3) 两阶段验证:首先进行语义类型验证,然后进行基于规则的模式检查,确保抽取结果的语义正确性和结构合规性。4) 溯源:保留段级别和页级别的出处,确保可追溯到监管源文本。

关键创新:该论文的关键创新在于将ESG本体作为一等公民,直接嵌入到知识抽取和图谱构建过程中。通过本体约束,可以有效提高LLM抽取结果的质量,并实现知识图谱的自动构建和治理。与现有方法相比,OntoMetric框架能够显著提高语义准确率和模式合规性,并降低构建成本。

关键设计:在本体约束的LLM提取阶段,论文使用了prompt工程技术,设计了特定的prompt模板,引导LLM抽取符合本体定义的实体和关系。在两阶段验证阶段,论文定义了一系列基于规则的模式检查规则,用于验证抽取结果是否符合ESG指标知识图谱的模式定义。此外,论文还设计了确定性标识符,用于唯一标识每个实体和关系,方便知识图谱的维护和更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OntoMetric框架在五个ESG监管标准上实现了65-90%的语义准确率和超过80%的模式合规性,而无约束的基线提取的语义准确率仅为3-10%。此外,OntoMetric框架的成本效率稳定,每个验证实体的成本为0.01-0.02美元,效率比基线提高了48倍。这些结果表明,OntoMetric框架能够显著提高ESG指标知识图谱的构建质量和效率。

🎯 应用场景

OntoMetric框架可应用于金融机构、咨询公司和监管机构等领域,帮助他们更好地理解和应用ESG指标,进行风险评估、投资决策和政策制定。该框架能够自动从大量的监管文件中提取ESG知识,降低人工成本,提高效率,并确保知识的准确性和一致性。未来,该框架可以扩展到其他领域,如医疗健康和供应链管理,构建领域知识图谱,支持智能决策。

📄 摘要(原文)

Environmental, Social, and Governance (ESG) metric knowledge is inherently structured, connecting industries, reporting frameworks, metric categories, metrics, and calculation models through compositional dependencies, yet in practice this structure remains embedded implicitly in regulatory documents such as SASB, TCFD, and IFRS S2 and rarely exists as an explicit, governed, or machine-actionable artefact. Existing ESG ontologies define formal schemas but do not address scalable population and governance from authoritative regulatory sources, while unconstrained large language model (LLM) extraction frequently produces semantically incorrect entities, hallucinated relationships, and structurally invalid graphs. OntoMetric is an ontology-guided framework for the automated construction and governance of ESG metric knowledge graphs from regulatory documents that operationalises the ESG Metric Knowledge Graph (ESGMKG) ontology as a first-class constraint embedded directly into the extraction and population process. The framework integrates structure-aware segmentation, ontology-constrained LLM extraction enriched with semantic fields and deterministic identifiers, and two-phase validation combining semantic type verification with rule-based schema checking, while preserving segment-level and page-level provenance to ensure traceability to regulatory source text. Evaluation on five ESG regulatory standards shows that ontology-guided extraction achieves 65-90 percent semantic accuracy and over 80 percent schema compliance, compared with 3-10 percent for unconstrained baseline extraction, and yields stable cost efficiency with a cost per validated entity of 0.01-0.02 USD and a 48 times efficiency improvement over baseline.