OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

📄 arXiv: 2505.23522v2 📥 PDF

作者: Fengxiang Wang, Mingshuo Chen, Xuming He, Yueying Li, YiFan Zhang, Feng Liu, Zijie Guo, Zhenghao Hu, Jiong Wang, Jingyi Xu, Zhangrui Li, Fenghua Ling, Ben Fei, Weijia Li, Long Lan, Wenjing Yang, Wenlong Zhang, Lei Bai

分类: cs.CV, cs.LG

发布日期: 2025-05-29 (更新: 2025-11-04)


💡 一句话要点

提出OmniEarth-Bench,用于全面评估地球六大圈层及跨圈层交互的多模态观测数据学习。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 地球科学 基准测试 跨圈层交互 地球系统认知

📋 核心要点

  1. 现有地球科学多模态学习基准存在数据源单一、科学粒度受限和圈层扩展性不足等问题。
  2. OmniEarth-Bench通过构建跨越六大圈层及其交互的综合性多模态基准,解决了上述局限性。
  3. 实验表明,即使是最先进的多模态大模型在OmniEarth-Bench上也表现不佳,揭示了地球系统认知能力的差距。

📝 摘要(中文)

现有的地球科学多模态学习基准测试对地球圈层及其跨圈层交互的覆盖范围有限且孤立,通常将评估限制在大气的人类活动圈层,最多涉及16个任务。这些限制包括:窄源异构性(单一/少数数据源)、受限的科学粒度和有限的圈层可扩展性。因此,我们引入了OmniEarth-Bench,这是第一个系统地跨越所有六个圈层(大气圈、岩石圈、海洋圈、冰冻圈、生物圈和人类活动圈层)及其跨圈层的多模态基准。OmniEarth-Bench建立在可扩展的模块化拓扑数据推理框架和原生多观测源以及专家参与的策展之上,生成了29,855个标准化、专家策展的注释。所有注释都组织成一个四级层次结构(圈层、情景、能力、任务),包含109个专家策展的评估任务。对9个最先进的MLLM的实验表明,即使是最先进的模型也难以应对我们的基准,没有一个模型的准确率达到35%,揭示了地球系统认知能力的系统性差距。数据集和评估代码已在OmniEarth-Bench发布。

🔬 方法详解

问题定义:现有地球科学多模态学习基准测试存在覆盖范围有限且孤立的问题,主要体现在数据来源单一、科学粒度粗糙以及圈层扩展性不足。这导致模型难以学习地球系统各圈层之间的复杂交互关系,阻碍了地球科学领域的AI发展。

核心思路:OmniEarth-Bench的核心思路是构建一个全面、多样的多模态基准测试,覆盖地球的六大圈层(大气圈、岩石圈、海洋圈、冰冻圈、生物圈和人类活动圈层)及其相互作用。通过提供丰富的多模态数据和专家标注,旨在促进模型对地球系统认知能力的提升。

技术框架:OmniEarth-Bench采用可扩展的模块化拓扑数据推理框架,整合了原生多观测源。该框架支持数据的标准化、专家策展和组织,形成一个四级层次结构(圈层、情景、能力、任务),包含109个专家策展的评估任务。数据推理框架的具体实现细节未知。

关键创新:OmniEarth-Bench的关键创新在于其全面性,首次系统地覆盖了地球的所有六大圈层及其跨圈层交互。此外,该基准测试还强调了专家参与的策展,确保了数据的质量和科学性。与现有基准相比,OmniEarth-Bench提供了更广泛的数据来源和更细粒度的评估任务。

关键设计:关于关键设计,论文中并未详细描述具体的参数设置、损失函数或网络结构等技术细节。但提到使用了29,855个标准化、专家策展的注释,并组织成四级层次结构,这表明在数据标注和组织方面进行了精心的设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在OmniEarth-Bench上对9个最先进的多模态大语言模型(MLLM)进行了评估,结果显示,即使是最先进的模型也难以达到35%的准确率。这表明现有模型在地球系统认知能力方面存在显著差距,突显了OmniEarth-Bench的挑战性和价值。

🎯 应用场景

OmniEarth-Bench可用于训练和评估地球科学领域的多模态机器学习模型,促进气候变化预测、自然灾害监测、资源管理等方面的研究。该基准测试有助于开发更强大的地球系统认知模型,为解决全球性环境问题提供技术支持。

📄 摘要(原文)

Existing benchmarks for multimodal learning in Earth science offer limited, siloed coverage of Earth's spheres and their cross-sphere interactions, typically restricting evaluation to the human-activity sphere of atmosphere and to at most 16 tasks. These limitations: \textit{narrow-source heterogeneity (single/few data sources), constrained scientific granularity, and limited-sphere extensibility}. Therefore, we introduce \textbf{OmniEarth-Bench}, the first multimodal benchmark that systematically spans all six spheres: atmosphere, lithosphere, oceanosphere, cryosphere, biosphere, and human-activity sphere, and cross-spheres. Built with a scalable, modular-topology data inference framework and native multi-observation sources and expert-in-the-loop curation, OmniEarth-Bench produces 29,855 standardized, expert-curated annotations. All annotations are organized into a four-level hierarchy (Sphere, Scenario, Ability, Task), encompassing 109 expert-curated evaluation tasks. Experiments on 9 state-of-the-art MLLMs reveal that even the most advanced models struggle with our benchmarks, where none of them reach 35\% accuracy, revealing systematic gaps in Earth-system cognitive ability. The dataset and evaluation code were released at OmniEarth-Bench (https://anonymous.4open.science/r/OmniEarth-Bench-B1BD).