R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation

📄 arXiv: 2505.02018v1 📥 PDF

作者: Meng-Hao Guo, Jiajun Xu, Yi Zhang, Jiaxi Song, Haoyang Peng, Yi-Xuan Deng, Xinzhi Dong, Kiyohiro Nakayama, Zhengyang Geng, Chen Wang, Bolin Ni, Guo-Wei Yang, Yongming Rao, Houwen Peng, Han Hu, Gordon Wetzstein, Shi-min Hu

分类: cs.CV

发布日期: 2025-05-04

备注: 18pages


💡 一句话要点

提出R-Bench:面向LLM/MLLM复杂推理评估的研究生级别多学科基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多模态学习 推理评估 基准测试 多学科 跨语言 人工智能

📋 核心要点

  1. 现有推理基准难以充分评估模型在多学科、多模态场景下的复杂推理能力,无法满足真实世界问题解决的需求。
  2. R-Bench通过构建研究生级别、多学科的英汉双语基准,提供难度校准、学科平衡和跨语言对齐的测试集。
  3. 实验表明,即使是先进的LLM/MLLM模型在R-Bench上表现欠佳,尤其是在多模态推理方面,仍有较大提升空间。

📝 摘要(中文)

推理是智能的基石,它能够综合现有知识来解决复杂问题。然而,现有的推理基准通常无法严格评估复杂、真实世界问题解决所需的细致推理能力,尤其是在多学科和多模态环境中。本文提出了一个研究生级别的、多学科的英汉双语基准,名为推理基准(R-Bench),用于评估语言和多模态模型的推理能力。R-Bench包含1094个问题,涵盖108个学科,用于语言模型评估;包含665个问题,涵盖83个学科,用于多模态模型测试,均提供英语和中文版本。这些问题经过精心设计,以确保严格的难度校准、学科平衡和跨语言对齐,使得该评估成为奥林匹克级别的多学科基准。我们评估了广泛使用的模型,包括OpenAI o1、GPT-4o、DeepSeek-R1等。实验结果表明,先进模型在复杂推理方面表现不佳,尤其是在多模态推理方面。即使是表现最佳的模型OpenAI o1在我们的多模态评估中也仅达到53.2%的准确率。数据和代码已公开。

🔬 方法详解

问题定义:现有推理基准无法有效评估LLM和MLLM在复杂、多学科和多模态场景下的推理能力。这些基准往往缺乏难度校准、学科平衡和跨语言对齐,难以反映真实世界问题的复杂性。因此,需要一个更具挑战性和综合性的基准来推动相关研究的进展。

核心思路:R-Bench的核心思路是构建一个研究生级别的多学科基准,涵盖语言和多模态两个方面,并提供英汉双语版本。通过精心设计问题,确保难度校准、学科平衡和跨语言对齐,从而更全面地评估模型的推理能力。该基准旨在模拟真实世界复杂问题的解决过程,挑战现有模型的推理极限。

技术框架:R-Bench包含两个主要部分:语言模型评估和多模态模型评估。每个部分都包含多个学科的问题,并提供英汉双语版本。问题的设计遵循严格的难度校准、学科平衡和跨语言对齐原则。评估过程包括将问题输入到待评估的模型中,并根据模型的输出结果计算准确率等指标。

关键创新:R-Bench的关键创新在于其研究生级别的难度、多学科的覆盖范围和英汉双语的支持。与现有基准相比,R-Bench更具挑战性,能够更全面地评估模型的推理能力。此外,R-Bench的跨语言特性使其能够评估模型在不同语言环境下的推理能力。

关键设计:R-Bench的问题设计遵循以下原则:难度校准(确保问题难度符合研究生水平)、学科平衡(涵盖多个学科领域)和跨语言对齐(确保英汉双语版本的问题在语义上等价)。具体而言,问题类型包括选择题、填空题和问答题等。对于多模态问题,包含图像、文本等多种模态的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是先进的LLM/MLLM模型在R-Bench上表现不佳。例如,OpenAI o1在多模态评估中仅达到53.2%的准确率。这表明现有模型在复杂推理方面仍有很大的提升空间。R-Bench的评估结果为未来的研究提供了重要的参考。

🎯 应用场景

R-Bench可用于评估和比较不同LLM/MLLM模型的推理能力,指导模型的设计和优化。该基准还可用于研究不同推理策略的有效性,以及模型在不同学科和语言环境下的表现。此外,R-Bench有望促进跨学科和跨语言的合作研究,推动人工智能技术的进步。

📄 摘要(原文)

Reasoning stands as a cornerstone of intelligence, enabling the synthesis of existing knowledge to solve complex problems. Despite remarkable progress, existing reasoning benchmarks often fail to rigorously evaluate the nuanced reasoning capabilities required for complex, real-world problemsolving, particularly in multi-disciplinary and multimodal contexts. In this paper, we introduce a graduate-level, multi-disciplinary, EnglishChinese benchmark, dubbed as Reasoning Bench (R-Bench), for assessing the reasoning capability of both language and multimodal models. RBench spans 1,094 questions across 108 subjects for language model evaluation and 665 questions across 83 subjects for multimodal model testing in both English and Chinese. These questions are meticulously curated to ensure rigorous difficulty calibration, subject balance, and crosslinguistic alignment, enabling the assessment to be an Olympiad-level multi-disciplinary benchmark. We evaluate widely used models, including OpenAI o1, GPT-4o, DeepSeek-R1, etc. Experimental results indicate that advanced models perform poorly on complex reasoning, especially multimodal reasoning. Even the top-performing model OpenAI o1 achieves only 53.2% accuracy on our multimodal evaluation. Data and code are made publicly available at here.