OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases

📄 arXiv: 2506.12577v1 📥 PDF

作者: Yongrui Chen, Zhiqiang Liu, Jing Yu, Lin Ren, Nan Hu, Xinbang Dai, Jiajun Liu, Jiazhen Kang, Shenyu Zhang, Xinda Wang, Keyan Ding, Pengfei Shen, Haolei Zhu, Hongjie Deng, Yisong Wang, Tongtong Wu, Sheng Bi, Wen Zhang, Tianxing Wu, Qiu Ji, Haofen Wang, Wenliang Chen, Huajun Chen, Guilin Qi

分类: cs.CL

发布日期: 2025-06-14


💡 一句话要点

提出OneEval以解决LLM在知识密集推理中的评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识密集推理 评估基准 知识图谱 形式逻辑 推理能力 自然语言处理 多模态学习

📋 核心要点

  1. 现有大型语言模型在处理结构化知识推理时表现不佳,缺乏系统评估的基准。
  2. 本文提出OneEval基准,专门设计用于评估LLMs在多种知识模式下的推理能力。
  3. 实验结果显示,最强模型在OneEval_Hard上的准确率仅为32.2%,并且推理复杂度增加时性能显著下降。

📝 摘要(中文)

大型语言模型(LLMs)在处理非结构化文本的推理任务上取得了显著进展,但在需要整合结构化外部知识(如知识图谱、代码片段或形式逻辑)的推理任务中,其能力显著下降。为填补这一空白,本文提出了OneEval,一个全面的基准,旨在评估LLMs在四种结构化知识模式(非结构化文本、知识图谱、代码和形式逻辑)及五个关键领域(一般知识、政府、科学、法律和编程)上的知识密集推理能力。OneEval包含4,019个精心策划的实例,并包括一个具有挑战性的子集OneEval_Hard,包含1,285个特别困难的案例。通过对18个最先进的开源和专有LLMs的广泛评估,发现了结构化推理的持续局限性和推理链延伸的收益递减现象。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在知识密集推理任务中的评估问题,现有方法缺乏针对结构化知识的系统性基准,导致模型性能难以全面评估。

核心思路:OneEval基准通过整合多种结构化知识模式,提供了一个全面的评估框架,能够系统性地测试LLMs在不同领域和知识类型下的推理能力。

技术框架:OneEval的整体架构包括四种知识模式(非结构化文本、知识图谱、代码和形式逻辑)和五个领域(一般知识、政府、科学、法律和编程),共包含4,019个实例,特别子集OneEval_Hard包含1,285个困难案例。

关键创新:OneEval的创新在于其多样化的知识模式和领域覆盖,填补了现有评估基准的空白,使得对LLMs的评估更加全面和系统。

关键设计:在设计中,实例的选择经过精心策划,确保涵盖不同的推理难度和知识类型,同时提供了评估脚本和基准结果,便于后续研究的比较和验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,最强的模型在OneEval_Hard上的准确率仅为32.2%,而在文本推理任务中准确率为53%,在形式逻辑任务中降至25%。这些结果强调了结构化推理的持续局限性和推理链延伸的收益递减现象。

🎯 应用场景

OneEval基准的潜在应用领域包括自然语言处理、知识图谱构建、法律推理和科学研究等。通过提供系统的评估工具,研究人员和开发者可以更好地理解和改进大型语言模型在知识密集任务中的表现,从而推动相关技术的进步和应用。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated substantial progress on reasoning tasks involving unstructured text, yet their capabilities significantly deteriorate when reasoning requires integrating structured external knowledge such as knowledge graphs, code snippets, or formal logic. This limitation is partly due to the absence of benchmarks capable of systematically evaluating LLM performance across diverse structured knowledge modalities. To address this gap, we introduce \textbf{\textsc{OneEval}}, a comprehensive benchmark explicitly designed to assess the knowledge-intensive reasoning capabilities of LLMs across four structured knowledge modalities, unstructured text, knowledge graphs, code, and formal logic, and five critical domains (general knowledge, government, science, law, and programming). \textsc{OneEval} comprises 4,019 carefully curated instances and includes a challenging subset, \textsc{OneEval}\textsubscript{Hard}, consisting of 1,285 particularly difficult cases. Through extensive evaluation of 18 state-of-the-art open-source and proprietary LLMs, we establish three core findings: a) \emph{persistent limitations in structured reasoning}, with even the strongest model achieving only 32.2\% accuracy on \textsc{OneEval}\textsubscript{Hard}; b) \emph{performance consistently declines as the structural complexity of the knowledge base increases}, with accuracy dropping sharply from 53\% (textual reasoning) to 25\% (formal logic); and c) \emph{diminishing returns from extended reasoning chains}, highlighting the critical need for models to adapt reasoning depth appropriately to task complexity. We release the \textsc{OneEval} datasets, evaluation scripts, and baseline results publicly, accompanied by a leaderboard to facilitate ongoing advancements in structured knowledge reasoning.