AstroAlertBench: Evaluating the Accuracy, Reasoning, and Honesty of Multimodal LLMs in Astronomical Classification

📄 arXiv: 2605.05573v1 📥 PDF

作者: Claire Chen, Jiabao Sean Xiao, Shuze Daniel Liu, Facundo Perez Paolino, Luke Handley, Theophile Jegou du Laz, Ricky Nilsson, Alice Zou, Matthew Graham, Ashish Mahabal

分类: astro-ph.IM, cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出AstroAlertBench基准测试,评估多模态大模型在天文瞬变事件分类中的准确性、推理能力与诚实度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 天文瞬变分类 科学推理 模型诚实度 基准测试 人机协同 ZTF巡天

📋 核心要点

  1. 天文观测数据呈指数级增长,传统人工复核难以应对,亟需具备专业科学推理能力的多模态大模型辅助决策。
  2. 构建AstroAlertBench基准,通过元数据基础、科学推理及分层分类的三阶段逻辑链,系统评估模型在天文领域的表现。
  3. 实验揭示了模型准确率与诚实度之间的脱节,强调了在科学应用中评估模型自我校准与推理可靠性的重要性。

📝 摘要(中文)

现代天文台产生海量多模态数据,导致专家人工复核成为瓶颈。尽管多模态大语言模型(MLLMs)在解释复杂视觉与文本输入方面展现出潜力,但其在专业科学分类及提供可解释推理方面的能力尚缺乏系统研究。本文提出了AstroAlertBench,这是一个旨在评估大模型在天文事件复核中表现的综合多模态基准,涵盖元数据基础、科学推理及五类分层分类的逻辑链。我们利用兹威基瞬变探测器(ZTF)的1,500个真实警报样本作为试点,对13个支持视觉输入的前沿闭源及开源模型进行了基准测试。研究发现,高准确率并不总是等同于模型的“诚实度”(即自我评估推理的能力),这影响了其作为现实世界助手的可靠性。此外,我们还引入了人机协同评估协议,为未来社区规模的参与奠定基础。AstroAlertBench为开发校准良好且具备可解释性的天文助手提供了框架。

🔬 方法详解

问题定义:天文瞬变事件(如超新星、变星等)的自动分类面临严峻挑战,现有模型往往缺乏针对科学数据的逻辑推理能力,且在面对不确定性时表现出“幻觉”或缺乏诚实度,难以满足科学研究的严谨性要求。

核心思路:论文提出将天文警报复核过程解构为“元数据基础-科学推理-分层分类”的三阶段逻辑链。通过引入这一结构化评估框架,不仅考察模型的分类准确性,更重点考察其推理过程的逻辑一致性与自我评估能力。

技术框架:该框架基于ZTF的真实警报数据,包含多模态输入(图像与元数据文本)。评估流程要求模型首先提取元数据特征,结合视觉信息进行科学推断,最后输出分层分类结果,并要求模型对其推理过程进行置信度评估。

关键创新:引入了“诚实度(Honesty)”评估指标,即模型自我评估推理过程的能力。这与单纯的分类准确率不同,旨在衡量模型在面对复杂天文现象时是否能准确识别自身知识边界,减少误导性输出。

关键设计:采用了包含1,500个真实ZTF警报的精选数据集,涵盖了多种天文瞬变类型。评估协议结合了自动化指标与人机协同(Human-in-the-loop)反馈机制,确保评估结果既具备统计显著性,又符合天文学家的专业判断标准。

📊 实验亮点

通过对13个前沿多模态大模型(包括闭源与开源模型)的全面测试,研究发现模型在天文分类任务上的表现参差不齐。核心亮点在于揭示了准确率与诚实度之间的非线性关系,即部分高准确率模型在推理过程中表现出较低的自我评估可靠性,为未来开发更具科学严谨性的多模态模型提供了关键的性能基准与改进方向。

🎯 应用场景

该研究可直接应用于大型巡天项目(如LSST)的实时警报处理系统,辅助天文学家快速筛选高价值瞬变事件。此外,其评估框架可推广至其他科学领域(如医学影像、遥感监测),为构建具备高可靠性、可解释性和自我校准能力的领域专用多模态AI助手提供方法论参考。

📄 摘要(原文)

Modern astronomical observatories generate a massive volume of multimodal data, creating a critical bottleneck for expert human review. While multimodal large language models (LLMs) have shown promise in interpreting complex visual and textual inputs, their ability to perform specialized scientific classification while providing interpretable reasoning remains understudied. We introduce AstroAlertBench, a comprehensive multimodal benchmark designed to evaluate LLM performance in astronomical event review along a three-stage logical chain: metadata grounding, scientific reasoning, and hierarchical classification over five categories. We use a pilot sample of 1,500 real-world alerts from the Zwicky Transient Facility (ZTF), a wide-field survey that scans the northern sky to detect transient astronomical events. On this dataset, we benchmark 13 frontier closed-source and open-weight LLMs that support visual input. Our results reveal that high accuracy does not always align with model ``honesty,'' defined as the ability to self-evaluate its reasoning, which affects its reliability as a real-world assistant. We further initialize a human-in-the-loop evaluation protocol as a precursor to future community-scale participation. Together, AstroAlertBench provides a framework for developing calibrated and interpretable astronomical assistants.