ChronoEarth-492K: A Large Scale and Long Horizon Spatiotemporal Hyperspectral Earth Observation Dataset and Benchmark
作者: Haozhe Si, Yuxuan Wan, Yuqing Wang, Minh Do, Han Zhao
分类: cs.CV
发布日期: 2026-05-15
💡 一句话要点
提出ChronoEarth-492K大规模时空高光谱数据集与基准,促进长时间序列高光谱自监督学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 高光谱图像 时空数据 自监督学习 遥感 地球观测
📋 核心要点
- 现有高光谱自监督学习数据集时间跨度不足,限制了长时间序列时空建模的发展。
- 构建大规模、时间校准的高光谱数据集ChronoEarth-492K,并提出相应的评估基准ChronoEarth-Benchmark。
- 该数据集和基准涵盖静态、短时程和长时程时间任务,并提供了多种基线模型的性能评估。
📝 摘要(中文)
本文提出了ChronoEarth-492K,这是一个大规模、时间校准的高光谱自监督学习数据集,基于NASA的EO-1 Hyperion任务构建,该任务拥有迄今为止世界上最长的连续高光谱档案(2001-2017)。ChronoEarth-492K包含来自185,398个全球位置的492,354个经过辐射校正的图像块,时间跨度为17年,其中28,786个站点包含多时序序列(≥3次观测),支持短时程和长时程的时间分析。在此基础上,本文建立了ChronoEarth-Benchmark,一个统一的评估套件,涵盖静态、短时程和长时程时间任务,由六个开源地理空间产品构建,覆盖土地覆盖、作物类型、森林动态和土壤性质。此外,本文还引入了标准化的评估协议,并报告了最先进的高光谱基础模型的广泛基线结果。ChronoEarth数据集和基准共同为系统性的时空高光谱表征学习提供了一个大规模、时间对齐的平台。
🔬 方法详解
问题定义:现有高光谱自监督学习数据集在时间维度上较为浅薄,难以支持长时间跨度的时空建模。这限制了对地球表面材料级理解和生态系统动态的深入研究。因此,需要一个大规模、长时间序列的高光谱数据集来推动相关研究。
核心思路:本文的核心思路是利用NASA EO-1 Hyperion任务积累的长时间高光谱数据,构建一个大规模、时间校准的数据集。通过提供丰富的时空信息,促进高光谱自监督学习模型在长时间序列分析方面的研究。
技术框架:ChronoEarth-492K数据集的构建流程主要包括以下几个阶段:数据收集与筛选,辐射校正,图像块提取,以及时间校准。ChronoEarth-Benchmark则包含静态、短时程和长时程时间任务的评估套件,并提供了标准化的评估协议。
关键创新:该论文的关键创新在于构建了首个大规模、时间校准的高光谱自监督学习数据集,并提出了相应的评估基准。与现有数据集相比,ChronoEarth-492K具有更长的时间跨度、更大的数据规模和更丰富的时空信息。
关键设计:数据集包含492,354个辐射校正后的图像块,覆盖185,398个全球位置,时间跨度为17年。评估基准包含六个开源地理空间产品,涵盖土地覆盖、作物类型、森林动态和土壤性质等多个方面。论文还提供了标准化的评估协议,方便研究人员进行模型评估和比较。
🖼️ 关键图片
📊 实验亮点
论文构建了包含492,354个图像块的大规模数据集,时间跨度达17年。在ChronoEarth-Benchmark上,论文评估了多个最先进的高光谱基础模型,并提供了基线结果。该数据集和基准为未来的高光谱时空表征学习研究奠定了基础。
🎯 应用场景
该研究成果可广泛应用于土地覆盖分类、作物类型识别、森林动态监测、土壤性质分析等领域。通过利用长时间序列的高光谱数据,可以更准确地理解地球表面的变化,为农业、林业、环境监测等领域提供更可靠的信息支持,并为气候变化研究提供数据基础。
📄 摘要(原文)
Hyperspectral imaging (HSI) provides dense spectral information for the Earth's surface, enabling material-level understanding of land cover and ecosystem dynamics. Despite recent progress in hyperspectral self-supervised learning (SSL), existing datasets remain temporally shallow, limiting the development of long-horizon spatiotemporal modeling. To address this gap, we introduce ChronoEarth-492K, the first large-scale, temporally calibrated hyperspectral SSL dataset built upon NASA's EO-1 Hyperion mission, the world's longest continuous hyperspectral archive up to date (2001-2017). ChronoEarth-492K comprises 492,354 radiometrically harmonized patches across 185,398 global locations over 17 years, with 28,786 sites containing multi-temporal sequences ($\geq 3$ observations) that enable both short- and long-horizon temporal analysis. Building on this foundation, we establish the ChronoEarth-Benchmark, a unified evaluation suite spanning static, short-horizon, and long-horizon temporal tasks, constructed from six open-source geospatial products covering land cover, crop type, forest dynamics, and soil properties. We further introduce a standardized evaluation protocol and report extensive baseline results across state-of-the-art hyperspectral foundation models. Together, ChronoEarth and benchmark provide the first large-scale, temporally grounded platform for systematic spatiotemporal hyperspectral representation learning.