AstroMLab 1: Who Wins Astronomy Jeopardy!?
作者: Yuan-Sen Ting, Tuan Dung Nguyen, Tirthankar Ghosal, Rui Pan, Hardik Arora, Zechang Sun, Tijmen de Haan, Nesar Ramachandra, Azton Wells, Sandeep Madireddy, Alberto Accomazzi
分类: astro-ph.IM, astro-ph.EP, astro-ph.GA, astro-ph.SR, cs.AI, cs.CL
发布日期: 2024-07-15 (更新: 2024-11-08)
备注: 45 pages, 12 figures, 7 tables. Published in Astronomy & Computing. AstroMLab homepage: https://astromlab.org/
💡 一句话要点
AstroMLab 1:构建天文学基准数据集,评估大型语言模型在天文学领域的表现。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 天文学 基准数据集 性能评估 置信度校准
📋 核心要点
- 现有大型语言模型在天文学领域的应用缺乏专门的评估基准,难以准确衡量其性能。
- 构建包含4425道天文学多选题的AstroMLab 1数据集,用于评估LLM在不同天文学子领域的表现。
- 实验结果表明,Claude-3.5-Sonnet表现最佳,开源模型如LLaMA-3-70b和Qwen-2-72b也取得了显著进展。
📝 摘要(中文)
本文提出了首个天文学专用基准数据集AstroMLab 1,用于全面评估商业和开源大型语言模型(LLM)在天文学领域的表现。该数据集包含4425道多项选择题,涵盖《天文学与天体物理学年鉴》中的广泛天体物理学主题。分析考察了模型在不同天文学子领域的性能,并评估了响应校准,这对于在研究环境中潜在部署至关重要。Claude-3.5-Sonnet的性能优于竞争对手,准确率高达85.0%,领先4.6个百分点。对于商业模型,观察到每3到12个月成本普遍降低,以达到此特定天文学基准中的相似分数。开源模型的性能迅速提高,LLaMA-3-70b(80.6%)和Qwen-2-72b(77.7%)现在可以与一些最佳商业模型竞争。研究发现,非以英语为重点的模型在系外行星、恒星天体物理学和仪器相关问题上表现较差,这可能源于训练数据较少、历史背景有限以及这些领域的快速发展。顶级模型表现出良好的置信度校准,置信度与正确性之间的相关性高于0.9,但往往略微不自信。开源模型的快速、低成本推理的发展为天文学领域的经济部署提供了新的机会。观察到的快速进展表明,LLM驱动的天文学研究在不久的将来可能成为现实。
🔬 方法详解
问题定义:论文旨在解决缺乏专门针对天文学领域的大型语言模型(LLM)评估基准的问题。现有方法无法准确评估LLM在天文学领域的知识掌握程度和推理能力,阻碍了LLM在该领域的应用。现有方法缺乏对模型置信度校准的评估,难以判断模型输出结果的可信度。
核心思路:论文的核心思路是构建一个高质量的天文学基准数据集,用于全面评估LLM在天文学领域的表现。通过分析模型在不同天文学子领域的性能,并评估响应校准,从而为LLM在天文学研究中的应用提供参考。
技术框架:论文构建了AstroMLab 1数据集,包含4425道多项选择题,涵盖《天文学与天体物理学年鉴》中的广泛天体物理学主题。该数据集被用于评估各种商业和开源LLM,包括Claude-3.5-Sonnet、LLaMA-3-70b和Qwen-2-72b等。评估指标包括准确率和置信度校准。
关键创新:该论文最重要的创新点在于构建了首个天文学专用基准数据集AstroMLab 1。该数据集的构建填补了天文学领域LLM评估基准的空白,为后续研究提供了重要资源。
关键设计:AstroMLab 1数据集中的问题来源于《天文学与天体物理学年鉴》,保证了问题的专业性和权威性。数据集涵盖了广泛的天文学子领域,能够全面评估LLM在不同领域的知识掌握程度。论文使用了准确率和置信度校准作为评估指标,能够全面评估LLM的性能。
🖼️ 关键图片
📊 实验亮点
Claude-3.5-Sonnet在AstroMLab 1数据集上取得了85.0%的准确率,优于其他商业模型。开源模型LLaMA-3-70b和Qwen-2-72b也取得了显著进展,分别达到了80.6%和77.7%的准确率,与一些最佳商业模型竞争。顶级模型表现出良好的置信度校准,置信度与正确性之间的相关性高于0.9。
🎯 应用场景
该研究成果可应用于天文学研究的多个领域,例如辅助天文学家进行文献检索、数据分析和科学发现。通过利用LLM的强大知识储备和推理能力,可以提高天文学研究的效率和质量。此外,该基准数据集可以促进LLM在天文学领域的进一步发展和应用。
📄 摘要(原文)
We present a comprehensive evaluation of proprietary and open-weights large language models using the first astronomy-specific benchmarking dataset. This dataset comprises 4,425 multiple-choice questions curated from the Annual Review of Astronomy and Astrophysics, covering a broad range of astrophysical topics. Our analysis examines model performance across various astronomical subfields and assesses response calibration, crucial for potential deployment in research environments. Claude-3.5-Sonnet outperforms competitors by up to 4.6 percentage points, achieving 85.0% accuracy. For proprietary models, we observed a universal reduction in cost every 3-to-12 months to achieve similar score in this particular astronomy benchmark. open-weights models have rapidly improved, with LLaMA-3-70b (80.6%) and Qwen-2-72b (77.7%) now competing with some of the best proprietary models. We identify performance variations across topics, with non-English-focused models generally struggling more in exoplanet-related fields, stellar astrophysics, and instrumentation related questions. These challenges likely stem from less abundant training data, limited historical context, and rapid recent developments in these areas. This pattern is observed across both open-weights and proprietary models, with regional dependencies evident, highlighting the impact of training data diversity on model performance in specialized scientific domains. Top-performing models demonstrate well-calibrated confidence, with correlations above 0.9 between confidence and correctness, though they tend to be slightly underconfident. The development for fast, low-cost inference of open-weights models presents new opportunities for affordable deployment in astronomy. The rapid progress observed suggests that LLM-driven research in astronomy may become feasible in the near future.