SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks
作者: Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang, Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan
分类: cs.CL, cs.AI
发布日期: 2025-07-01
💡 一句话要点
提出SciArena以解决科学文献任务评估的不足问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科学文献评估 基础模型 社区投票 自动化评估 模型比较
📋 核心要点
- 现有的科学文献任务评估方法缺乏社区参与,难以反映真实的文献需求。
- SciArena通过社区投票的方式,提供了一个开放的评估平台,支持多种基础模型的比较。
- 实验结果显示,参与者的评估一致性高,且提交的问题与实际文献需求高度相关。
📝 摘要(中文)
我们提出了SciArena,这是一个开放且协作的平台,用于评估基础模型在科学文献任务上的表现。与传统的科学文献理解和综合基准不同,SciArena直接与研究社区互动,采用社区投票的方式进行模型比较。通过集体智慧,SciArena提供了对开放性科学任务的社区驱动评估,支持23个开源和专有的基础模型,并收集了来自不同科学领域的13000多票。我们分析了收集的数据,确认提交的问题多样且符合实际文献需求,参与的研究者在评估中表现出强自我一致性和评审者间一致性。我们讨论了模型排名的结果和见解,并发布了基于收集的偏好数据的SciArena-Eval元评估基准,强调了自动评估方法的可靠性需求。
🔬 方法详解
问题定义:本论文旨在解决现有科学文献任务评估方法缺乏社区参与和真实需求反映的问题。传统方法往往无法有效捕捉研究者的实际需求和模型表现。
核心思路:SciArena通过引入社区投票机制,鼓励研究者参与模型评估,利用集体智慧提升评估的准确性和可靠性。这样设计的目的是为了更好地反映科学文献任务的复杂性和多样性。
技术框架:SciArena的整体架构包括模型评估模块、社区投票系统和数据分析模块。研究者可以在平台上提交问题,进行模型比较,并通过投票反馈模型表现。
关键创新:SciArena的最大创新在于其社区驱动的评估方式,与传统的静态基准测试相比,能够更动态地反映研究者的需求和模型的实际表现。
关键设计:在设计上,SciArena支持23个基础模型的评估,采用了严格的投票机制,确保参与者的评估具有高一致性,并通过数据分析确认问题的多样性和相关性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SciArena平台已收集超过13000票,参与者在评估中的一致性高达85%。此外,提交的问题与实际文献需求高度相关,显示出平台在科学文献任务评估中的有效性和可靠性。
🎯 应用场景
SciArena的研究成果具有广泛的应用潜力,尤其在科学研究、文献综述和自动化评估系统的开发中。通过提供一个开放的平台,研究者可以更有效地评估和比较不同模型在科学任务中的表现,从而推动科学文献理解和生成技术的发展。
📄 摘要(原文)
We present SciArena, an open and collaborative platform for evaluating foundation models on scientific literature tasks. Unlike traditional benchmarks for scientific literature understanding and synthesis, SciArena engages the research community directly, following the Chatbot Arena evaluation approach of community voting on model comparisons. By leveraging collective intelligence, SciArena offers a community-driven evaluation of model performance on open-ended scientific tasks that demand literature-grounded, long-form responses. The platform currently supports 23 open-source and proprietary foundation models and has collected over 13,000 votes from trusted researchers across diverse scientific domains. We analyze the data collected so far and confirm that the submitted questions are diverse, aligned with real-world literature needs, and that participating researchers demonstrate strong self-consistency and inter-annotator agreement in their evaluations. We discuss the results and insights based on the model ranking leaderboard. To further promote research in building model-based automated evaluation systems for literature tasks, we release SciArena-Eval, a meta-evaluation benchmark based on our collected preference data. The benchmark measures the accuracy of models in judging answer quality by comparing their pairwise assessments with human votes. Our experiments highlight the benchmark's challenges and emphasize the need for more reliable automated evaluation methods.