CORE: Comprehensive Ontological Relation Evaluation for Large Language Models

📄 arXiv: 2602.06446v1 📥 PDF

作者: Satyam Dwivedi, Sanjukta Ghosh, Shivam Dwivedi, Nishi Kumari, Anil Thakur, Anurag Purushottam, Deepak Alok, Praveen Gatla, Manjuprasad B, Bipasha Patgiri

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-02-06


💡 一句话要点

CORE:用于评估大型语言模型本体关系理解能力的综合数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语义关系 不相关性推理 数据集评估 知识推理

📋 核心要点

  1. 现有LLM评估缺乏对模型区分有意义语义关系和真正不相关关系能力的有效评估。
  2. CORE数据集通过构建包含大量学科和语义关系类型的数据集,着重评估LLM对不相关关系的识别能力。
  3. 实验表明,LLM在识别相关关系时表现良好,但在识别不相关关系时性能显著下降,存在语义崩溃问题。

📝 摘要(中文)

大型语言模型(LLMs)在许多推理基准测试中表现良好,但现有评估很少评估它们区分有意义的语义关系和真正不相关性的能力。我们引入了CORE(Comprehensive Ontological Relation Evaluation),这是一个包含22.5万个多项选择题的数据集,涵盖74个学科,以及一个包含203个经过严格验证的问题(Cohen's Kappa = 1.0)的通用领域开源基准,涵盖24种语义关系类型,且不相关对等比例表示。来自1000多名参与者的人工基线达到了92.6%的准确率(不相关对为95.1%)。相比之下,29个最先进的LLM的总体准确率达到48.25-70.9%,相关对的性能接近上限(86.5-100%),但不相关对的性能严重下降(0-41.35%),尽管置信度相似(92-94%)。不相关对的预期校准误差增加了2-4倍,平均语义崩溃率为37.6%,表明系统地生成了虚假关系。在CORE 22.5万个多项选择题数据集上,准确率进一步下降到大约2%,突出了领域特定语义推理方面的重大挑战。我们认为不相关性推理是LLM评估和安全的一个关键的、未被充分评估的前沿。

🔬 方法详解

问题定义:现有的大型语言模型在各种推理任务上表现出色,但它们区分有意义的语义关系和完全不相关概念的能力尚未得到充分评估。现有的评估方法往往侧重于模型识别相关关系的能力,而忽略了模型识别不相关关系时的表现。这种疏忽可能导致模型在实际应用中产生误导性或不准确的结论。

核心思路:CORE数据集的核心思路是构建一个包含大量不同学科和语义关系类型的数据集,其中特别强调了不相关关系的表示。通过在数据集中包含等比例的不相关关系,CORE旨在更全面地评估LLM的语义理解能力,并揭示模型在处理不相关概念时的潜在缺陷。

技术框架:CORE数据集的构建流程包括以下几个主要阶段:1) 确定涵盖广泛学科和语义关系类型的知识领域;2) 收集和整理来自各种来源的知识,包括百科全书、词典和领域特定的文本;3) 设计多项选择题,其中包含相关和不相关的概念对;4) 通过人工验证确保数据集的质量和一致性,使用Cohen's Kappa系数来衡量标注者之间的一致性。

关键创新:CORE数据集的关键创新在于其对不相关关系的关注和等比例表示。与以往的评估数据集不同,CORE专门设计用于评估LLM区分相关和不相关概念的能力。此外,CORE采用了严格的人工验证流程,确保数据集的质量和可靠性。

关键设计:CORE数据集包含22.5万个多项选择题,涵盖74个学科和24种语义关系类型。每个问题都包含一个问题和一个包含多个选项的答案集,其中只有一个选项是正确的。数据集中的不相关关系与相关关系以相同的比例表示,以确保评估的公平性。此外,CORE还提供了一个包含203个经过严格验证的问题的通用领域开源基准,Cohen's Kappa = 1.0。

📊 实验亮点

实验结果表明,最先进的LLM在CORE数据集上的总体准确率仅为48.25-70.9%,在识别不相关关系时的准确率更是低至0-41.35%。即使模型对相关和不相关关系赋予相似的置信度,其预期校准误差在不相关关系上增加了2-4倍,平均语义崩溃率高达37.6%。这些结果表明,LLM在识别不相关关系方面存在显著的缺陷,需要进一步的研究和改进。

🎯 应用场景

CORE数据集可用于评估和改进大型语言模型的语义理解能力,特别是在需要区分相关和不相关概念的场景中,例如信息检索、知识图谱构建、问答系统和自然语言推理。通过提高LLM识别不相关关系的能力,可以减少模型产生错误或误导性结论的风险,从而提高其在实际应用中的可靠性和安全性。

📄 摘要(原文)

Large Language Models (LLMs) perform well on many reasoning benchmarks, yet existing evaluations rarely assess their ability to distinguish between meaningful semantic relations and genuine unrelatedness. We introduce CORE (Comprehensive Ontological Relation Evaluation), a dataset of 225K multiple-choice questions spanning 74 disciplines, together with a general-domain open-source benchmark of 203 rigorously validated questions (Cohen's Kappa = 1.0) covering 24 semantic relation types with equal representation of unrelated pairs. A human baseline from 1,000+ participants achieves 92.6% accuracy (95.1% on unrelated pairs). In contrast, 29 state-of-the-art LLMs achieve 48.25-70.9% overall accuracy, with near-ceiling performance on related pairs (86.5-100%) but severe degradation on unrelated pairs (0-41.35%), despite assigning similar confidence (92-94%). Expected Calibration Error increases 2-4x on unrelated pairs, and a mean semantic collapse rate of 37.6% indicates systematic generation of spurious relations. On the CORE 225K MCQs dataset, accuracy further drops to approximately 2%, highlighting substantial challenges in domain-specific semantic reasoning. We identify unrelatedness reasoning as a critical, under-evaluated frontier for LLM evaluation and safety.