SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines
作者: M-A-P Team, Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, King Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixin Deng, Shawn Gavin, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, David Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tyshawn Hsing, Ming Xu, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Chengtuo Cheng, Tianhao Cheng, Keyi Ding, Siming Huang, Yun Huang, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Tianyang Pang, Zhongyuan Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Shanghaoran Quan, Yizhou Tan, Zili Wang, Chenqing Wang, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jinyang Zhang, Xiyue Zhang, Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, Chenghua Zhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang
分类: cs.CL
发布日期: 2025-02-20 (更新: 2025-03-28)
💡 一句话要点
SuperGPQA:构建涵盖285个研究生学科的大规模LLM评估基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型评估 多学科基准 人工-LLM协同 研究生水平 知识推理
📋 核心要点
- 现有LLM评估基准主要集中在主流学科,缺乏对轻工业、农业、服务业等专业领域的覆盖。
- 提出SuperGPQA基准,利用人工-LLM协同过滤,迭代优化问题,评估LLM在285个学科的研究生水平知识和推理能力。
- 实验表明,现有SOTA LLM在SuperGPQA上仍有提升空间,DeepSeek-R1达到61.82%的最高准确率。
📝 摘要(中文)
大型语言模型(LLMs)在数学、物理和计算机科学等主流学术领域表现出了卓越的能力。然而,人类知识包含超过200个专业学科,远远超出了现有基准的范围。LLMs在许多这些专业领域——尤其是在轻工业、农业和服务导向型学科——的能力仍然没有得到充分评估。为了解决这一差距,我们提出了SuperGPQA,这是一个全面的基准,用于评估跨285个学科的研究生水平的知识和推理能力。我们的基准采用了一种新颖的人工-LLM协同过滤机制,通过基于LLM响应和专家反馈的迭代改进,消除琐碎或模棱两可的问题。我们的实验结果表明,当前最先进的LLMs在不同的知识领域仍有很大的改进空间(例如,以推理为中心的模型DeepSeek-R1在SuperGPQA上实现了61.82%的最高准确率),突出了当前模型能力与通用人工智能之间的巨大差距。此外,我们还介绍了大规模标注过程管理方面的全面见解,涉及80多位专家标注员和一个交互式人工-LLM协作系统,为未来同等规模的研究计划提供了宝贵的方法论指导。
🔬 方法详解
问题定义:现有的大型语言模型评估基准主要集中在主流的学术领域,如数学、物理和计算机科学。然而,人类的知识体系远不止于此,存在着大量的专业学科,特别是在轻工业、农业和服务业等领域,缺乏对这些领域内LLM能力的有效评估。现有的评估方法无法准确衡量LLM在这些专业领域的知识掌握和推理能力,阻碍了LLM在更广泛领域的应用。
核心思路:SuperGPQA的核心思路是通过构建一个大规模、多学科的评估基准,全面评估LLM在各个专业领域的知识和推理能力。为了保证基准的质量,采用了人工-LLM协同过滤机制,通过迭代的方式,利用LLM的反馈和专家的意见,不断优化问题,消除琐碎或模棱两可的问题,从而提高评估的准确性和可靠性。
技术框架:SuperGPQA的整体框架包含以下几个主要阶段:1) 问题收集:从285个研究生学科收集问题;2) 人工-LLM协同过滤:利用LLM生成答案,并由专家进行评估,根据评估结果对问题进行修改和优化;3) 基准测试:使用优化后的问题对LLM进行测试,评估其在各个学科的知识和推理能力;4) 结果分析:对测试结果进行分析,了解LLM在不同学科的表现,并找出其优势和不足。
关键创新:SuperGPQA的关键创新在于其人工-LLM协同过滤机制。该机制通过迭代的方式,利用LLM的生成能力和专家的专业知识,不断优化问题,消除歧义和错误,从而保证了基准的质量和可靠性。此外,SuperGPQA涵盖了285个研究生学科,是目前规模最大的多学科LLM评估基准。
关键设计:在人工-LLM协同过滤过程中,采用了迭代的优化策略。每一轮迭代都包含以下步骤:1) LLM生成答案;2) 专家评估答案的正确性和问题的质量;3) 根据评估结果,对问题进行修改或删除。通过多轮迭代,不断提高问题的质量和评估的准确性。此外,在问题选择上,侧重于考察LLM的推理能力,避免过于简单或需要死记硬背的问题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前最先进的LLMs在SuperGPQA上仍有很大的提升空间。例如,以推理为中心的模型DeepSeek-R1在SuperGPQA上实现了61.82%的最高准确率,但距离人类水平仍有差距。这表明,即使是最先进的LLMs,在面对专业领域的知识和推理问题时,仍然存在不足。SuperGPQA的实验结果为LLM的研究人员提供了重要的参考,指出了未来研究的方向。
🎯 应用场景
SuperGPQA可用于评估和提升LLM在各个专业领域的知识和推理能力,促进LLM在轻工业、农业、服务业等领域的应用。该基准还可以为LLM的研究人员提供宝贵的数据和反馈,帮助他们开发更通用、更智能的LLM。此外,SuperGPQA的构建经验可以为其他领域的大规模评估基准的构建提供参考。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable proficiency in mainstream academic disciplines such as mathematics, physics, and computer science. However, human knowledge encompasses over 200 specialized disciplines, far exceeding the scope of existing benchmarks. The capabilities of LLMs in many of these specialized fields-particularly in light industry, agriculture, and service-oriented disciplines-remain inadequately evaluated. To address this gap, we present SuperGPQA, a comprehensive benchmark that evaluates graduate-level knowledge and reasoning capabilities across 285 disciplines. Our benchmark employs a novel Human-LLM collaborative filtering mechanism to eliminate trivial or ambiguous questions through iterative refinement based on both LLM responses and expert feedback. Our experimental results reveal significant room for improvement in the performance of current state-of-the-art LLMs across diverse knowledge domains (e.g., the reasoning-focused model DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting the considerable gap between current model capabilities and artificial general intelligence. Additionally, we present comprehensive insights from our management of a large-scale annotation process, involving over 80 expert annotators and an interactive Human-LLM collaborative system, offering valuable methodological guidance for future research initiatives of comparable scope.