CLINB: A Climate Intelligence Benchmark for Foundational Models

📄 arXiv: 2511.11597v1 📥 PDF

作者: Michelle Chen Huebscher, Katharine Mach, Aleksandar Stanić, Markus Leippold, Ben Gaiarin, Zeke Hausfather, Elisa Rawat, Erich Fischer, Massimiliano Ciaramita, Joeri Rogelj, Christian Buck, Lierni Sestorain Saralegui, Reto Knutti

分类: cs.AI, cs.CL

发布日期: 2025-10-29

备注: Questions, system prompt and model judge prompts available here: https://www.kaggle.com/datasets/deepmind/clinb-questions


💡 一句话要点

CLINB:用于评估基础模型气候智能的综合性基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 气候智能 大型语言模型 基准测试 知识综合 证据归因

📋 核心要点

  1. 现有大型语言模型在处理气候变化等复杂专业知识时面临知识质量和证据支持不足的挑战。
  2. CLINB基准通过开放式、基于事实、多模态问答任务,并由气候科学家制定评估标准,来评估模型。
  3. 实验表明,前沿模型具有卓越的知识综合能力,但存在证据不足和高幻觉率的问题,亟需改进。

📝 摘要(中文)

评估大型语言模型(LLMs)处理复杂、专业知识的能力仍然是一个关键挑战。我们通过气候变化的视角,引入CLINB基准来解决这个问题。CLINB评估模型在开放式、基于事实、多模态问答任务上的表现,并对知识质量和证据支持提出了明确的要求。CLINB依赖于真实用户的问题数据集和由顶尖气候科学家策划的评估标准。我们实施并验证了一个基于模型的评估过程,并评估了几个前沿模型。我们的研究结果揭示了一个关键的二分法。前沿模型表现出卓越的知识综合能力,通常表现出博士水平的理解和表达质量,甚至优于领域专家辅助较弱模型生成的“混合”答案。然而,这种性能却被证据不足的问题所抵消,证据质量参差不齐,参考文献和图像的幻觉率很高。我们认为,弥合知识综合和可验证归因之间的差距对于人工智能在科学工作流程中的部署至关重要,并且需要像CLINB这样可靠、可解释的基准来推动构建值得信赖的AI系统。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在气候变化等专业领域知识问答中存在的知识质量不高和证据支持不足的问题。现有方法难以保证答案的准确性和可靠性,容易产生幻觉,无法满足科学研究的需求。

核心思路:论文的核心思路是构建一个高质量的基准测试数据集CLINB,该数据集包含真实用户提出的关于气候变化的问题,并由气候科学家提供评估标准。通过CLINB,可以系统地评估LLMs在知识综合和证据归因方面的能力,从而推动LLMs在科学领域的应用。

技术框架:CLINB基准测试包含以下几个主要组成部分:1)真实用户提出的关于气候变化的问题数据集;2)由气候科学家制定的评估标准,用于评估答案的知识质量和证据支持;3)基于模型的评估流程,用于自动化评估LLMs的性能;4)对前沿LLMs的评估结果分析,揭示模型的优势和不足。

关键创新:CLINB的关键创新在于其专注于评估LLMs在专业领域的知识质量和证据归因能力,而不仅仅是通用知识的问答。此外,CLINB采用了真实用户的问题和领域专家的评估标准,保证了基准测试的实用性和可靠性。

关键设计:CLINB的评估标准包括知识准确性、完整性、相关性和证据支持等多个维度。评估流程采用了基于模型的自动化评估方法,以提高评估效率和一致性。论文还详细分析了不同LLMs在各个评估维度上的表现,为模型改进提供了指导。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,前沿模型在知识综合方面表现出色,甚至超越了领域专家辅助的混合答案。然而,这些模型在证据支持方面存在明显不足,参考文献和图像的幻觉率较高。这表明,当前LLMs在科学领域的应用仍面临挑战,需要进一步提高其知识质量和可信度。

🎯 应用场景

该研究成果可应用于气候变化研究、环境科学、政策制定等领域。通过提高AI模型在气候领域的知识质量和可信度,可以辅助科学家进行研究,为政策制定者提供更可靠的决策依据,并帮助公众更好地理解气候变化问题。未来,该基准测试可以扩展到其他科学领域,推动AI在更广泛的科学研究中的应用。

📄 摘要(原文)

Evaluating how Large Language Models (LLMs) handle complex, specialized knowledge remains a critical challenge. We address this through the lens of climate change by introducing CLINB, a benchmark that assesses models on open-ended, grounded, multimodal question answering tasks with clear requirements for knowledge quality and evidential support. CLINB relies on a dataset of real users' questions and evaluation rubrics curated by leading climate scientists. We implement and validate a model-based evaluation process and evaluate several frontier models. Our findings reveal a critical dichotomy. Frontier models demonstrate remarkable knowledge synthesis capabilities, often exhibiting PhD-level understanding and presentation quality. They outperform "hybrid" answers curated by domain experts assisted by weaker models. However, this performance is countered by failures in grounding. The quality of evidence varies, with substantial hallucination rates for references and images. We argue that bridging this gap between knowledge synthesis and verifiable attribution is essential for the deployment of AI in scientific workflows and that reliable, interpretable benchmarks like CLINB are needed to progress towards building trustworthy AI systems.