General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks
作者: Junlin Liu, Shengnan An, Shuang Zhou, Dan Ma, Shixiong Luo, Ying Xie, Yuan Zhang, Wenling Yuan, Yifan Zhou, Xiaoyu Li, Ziwen Wang, Xuezhi Cao, Xunliang Cai
分类: cs.CL, cs.AI
发布日期: 2026-04-13
备注: 17 pages, 9 figures
💡 一句话要点
General365:构建通用推理基准,评估大语言模型在多样化任务中的推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用推理 大语言模型 基准测试 推理能力评估 领域知识解耦
📋 核心要点
- 现有大语言模型在特定领域推理能力突出,但在通用推理方面仍存在不足,面临复杂约束和语义干扰等挑战。
- 提出General365基准,通过限制背景知识,解耦推理与专业知识,专注评估LLMs的通用推理能力。
- 实验结果表明,即使是最先进的LLM在General365上的表现远低于其在特定领域基准上的表现,通用推理能力有待提高。
📝 摘要(中文)
当前的大语言模型(LLMs)在数学和物理等特定领域表现出卓越的推理能力。然而,它们将这些推理技能推广到更通用和广泛的背景(通常称为通用推理)的能力仍未得到充分探索。与特定领域的推理不同,通用推理较少依赖于专业知识,但仍然面临着复杂的约束、嵌套的逻辑分支和语义干扰等严峻的推理挑战。为了解决这一差距,我们引入了General365,这是一个专门用于评估LLMs通用推理能力的基准。通过将背景知识限制在K-12水平,General365明确地将推理与专业知识分离。该基准包含365个种子问题和1095个变体问题,涵盖八个类别,确保了高难度和多样性。对26个领先LLMs的评估表明,即使是性能最佳的模型也仅达到62.8%的准确率,这与LLMs在数学和物理基准测试中近乎完美的表现形成鲜明对比。这些结果表明,当前LLMs的推理能力在很大程度上依赖于领域,在更广泛的应用中仍有很大的改进空间。我们设想General365将成为推动LLM推理超越特定领域任务,朝着稳健、通用的现实世界场景发展的催化剂。
🔬 方法详解
问题定义:现有的大语言模型在特定领域,如数学和物理,展现出了强大的推理能力。然而,它们在更广泛、更通用的场景下的推理能力,即通用推理,仍然是一个挑战。现有的方法往往依赖于特定领域的知识,而忽略了通用推理中存在的复杂约束、嵌套逻辑和语义干扰等问题。因此,如何评估和提升大语言模型在通用场景下的推理能力是一个亟待解决的问题。
核心思路:General365的核心思路是构建一个与领域知识解耦的通用推理基准。通过将背景知识限制在K-12水平,该基准旨在评估模型在不依赖专业知识的情况下,解决复杂逻辑问题的能力。这种设计使得研究人员能够更专注于评估模型的推理能力本身,而不是其对特定领域知识的掌握程度。
技术框架:General365基准包含365个种子问题和1095个变体问题,涵盖八个类别。这些类别旨在覆盖不同的推理类型,例如逻辑推理、空间推理和时间推理等。每个问题都经过精心设计,以确保其难度和多样性。评估过程包括将问题输入到大语言模型中,并评估模型生成的答案的准确性。
关键创新:General365最重要的创新点在于其与领域知识的解耦。通过限制背景知识,该基准能够更准确地评估模型的通用推理能力。此外,General365的多样性也使其能够更全面地评估模型的推理能力。
关键设计:General365的关键设计包括问题生成策略和评估指标。问题生成策略旨在生成具有不同难度和类型的推理问题。评估指标包括准确率,用于衡量模型生成的答案的正确性。此外,还考虑了其他指标,例如模型生成答案的解释性和可理解性。
🖼️ 关键图片
📊 实验亮点
在对26个领先LLMs的评估中,即使是性能最佳的模型在General365上的准确率也仅为62.8%,与它们在数学和物理基准测试中近乎完美的表现形成鲜明对比。这表明当前LLMs的推理能力在很大程度上依赖于领域,在更广泛的应用中仍有很大的改进空间。General365的评估结果突显了现有LLMs在通用推理方面的不足,并为未来的研究方向提供了重要的启示。
🎯 应用场景
General365的研究成果可应用于提升大语言模型在通用场景下的推理能力,例如智能助手、决策支持系统和自动化问题解决等领域。通过提高模型的通用推理能力,可以使其更好地适应各种实际应用,并提供更准确、更可靠的解决方案。未来,该研究有望推动人工智能技术在更广泛领域的应用。
📄 摘要(原文)
Contemporary large language models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in specialized domains like mathematics and physics. However, their ability to generalize these reasoning skills to more general and broader contexts--often termed general reasoning--remains under-explored. Unlike domain-specific reasoning, general reasoning relies less on expert knowledge but still presents formidable reasoning challenges, such as complex constraints, nested logical branches, and semantic interference. To address this gap, we introduce General365, a benchmark specifically designed to assess general reasoning in LLMs. By restricting background knowledge to a K-12 level, General365 explicitly decouples reasoning from specialized expertise. The benchmark comprises 365 seed problems and 1,095 variant problems across eight categories, ensuring both high difficulty and diversity. Evaluations across 26 leading LLMs reveal that even the top-performing model achieves only 62.8% accuracy, in stark contrast to the near-perfect performances of LLMs in math and physics benchmarks. These results suggest that the reasoning abilities of current LLMs are heavily domain-dependent, leaving significant room for improvement in broader applications. We envision General365 as a catalyst for advancing LLM reasoning beyond domain-specific tasks toward robust, general-purpose real-world scenarios. Code, Dataset, and Leaderboard: https://general365.github.io