LenghuSky-8: An 8-Year All-Sky Cloud Dataset with Star-Aware Masks and Alt-Az Calibration for Segmentation and Nowcasting
作者: Yicheng Rui, Xiao-Wei Duan, Licai Deng, Fan Yang, Zhengming Dang, Zhengjun Du, Junhao Peng, Wenhao Chu, Umut Mahmut, Kexin Li, Yiyun Wu, Fabo Feng
分类: astro-ph.IM, cs.AI, cs.CV
发布日期: 2026-03-17
备注: CVPR Findings accepted. 20 pages, 8 figures
💡 一句话要点
LenghuSky-8:用于云分割和临近预报的八年全天云数据集,包含星敏感掩膜和Alt-Az校准
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 全天云数据集 云分割 临近预报 天文观测 DINOv3 天体测量校准 ConvLSTM 冷湖
📋 核心要点
- 现有的全天数据集存在时间短、偏向白天数据或缺乏天体测量校准等问题,限制了地面时域天文台对云层覆盖的实时感知。
- LenghuSky-8数据集通过星敏感云掩膜和逐像素高度-方位角校准,提供了长达八年的全天候云层信息,解决了现有数据集的不足。
- 实验表明,基于DINOv3特征的线性探测器在云分割任务中取得了93.3%的总体准确率,ConvLSTM在临近预报任务中表现最佳。
📝 摘要(中文)
我们提出了LenghuSky-8,一个来自顶级天文台址的八年(2018-2025)全天成像数据集。该数据集包含429,620帧512x512图像,其中81.2%为夜间数据,并带有星敏感云掩膜、背景掩膜和逐像素的高度-方位角(Alt-Az)校准。为了在白天、夜晚和月相变化下实现鲁棒的云分割,我们在线性探测器上训练了DINOv3局部特征,在包含1,111张手动标记图像的平衡数据集上获得了93.3% ± 1.1%的总体准确率。通过恒星天体测量学,我们将每个像素映射到局部alt-az坐标,并测量了大约0.37度(天顶)和大约1.34度(30度高度)的校准不确定性,足以与望远镜调度器集成。除了分割之外,我们还引入了一个短时程临近预报基准,该基准基于逐像素的三类logits(天空/云/污染),并包含四个基线:持久性(复制最后一帧)、光流、ConvLSTM和VideoGPT。ConvLSTM表现最佳,但相对于持久性方法仅获得了有限的提升,突显了近期云演变的难度。我们发布了数据集、校准数据和一个开源工具包,用于加载、评估和可用于调度器的高度-方位角地图,以促进分割、临近预报和自主天文台操作方面的研究。
🔬 方法详解
问题定义:论文旨在解决地面天文观测中对云层覆盖的实时、准确感知问题。现有全天数据集存在时间跨度短、主要集中在白天数据、缺乏精确的天体测量校准等问题,难以满足天文观测对夜间云层状况的精细化需求。这些问题限制了望远镜的智能调度和观测效率。
核心思路:论文的核心思路是构建一个长时间跨度、包含夜间数据、并经过精确天体测量校准的全天云数据集,并在此基础上研究云分割和临近预报算法。通过高质量的数据集和有效的算法,实现对云层覆盖的准确感知和短期预测,从而优化天文观测计划。
技术框架:该研究的技术框架主要包括以下几个部分:1) 数据采集:利用全天相机在冷湖天文台址连续采集八年(2018-2025)的全天图像数据。2) 数据预处理:对图像进行星敏感云掩膜和背景掩膜处理,去除噪声和干扰。3) 天体测量校准:利用恒星位置信息,将每个像素映射到局部高度-方位角坐标,实现精确的天体测量校准。4) 云分割:训练基于DINOv3局部特征的线性探测器,实现对云层的准确分割。5) 临近预报:建立基于像素级别的三分类(天空/云/污染)临近预报基准,并评估多种基线算法的性能。
关键创新:该研究的关键创新点在于:1) 构建了LenghuSky-8,一个长时间跨度、包含大量夜间数据、并经过精确天体测量校准的全天云数据集。2) 提出了基于DINOv3局部特征的云分割方法,在不同光照条件下均能实现鲁棒的分割效果。3) 建立了基于像素级别的三分类临近预报基准,为云层短期预测研究提供了新的平台。
关键设计:在云分割方面,采用了DINOv3预训练模型的局部特征,并在此基础上训练线性探测器进行分类。这种方法利用了预训练模型的强大表征能力,减少了对大量标注数据的依赖。在天体测量校准方面,利用恒星位置信息进行像素级别的坐标映射,并对校准误差进行了详细评估。在临近预报方面,采用了像素级别的三分类logits作为预测目标,并评估了多种基线算法的性能,包括持久性方法、光流法、ConvLSTM和VideoGPT。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于DINOv3特征的线性探测器在云分割任务中取得了93.3% ± 1.1%的总体准确率。在临近预报任务中,ConvLSTM表现最佳,但相对于持久性方法仅获得了有限的提升,表明云层短期预测仍然具有挑战性。该数据集的校准不确定性在天顶附近约为0.37度,在30度高度处约为1.34度,满足天文观测的需求。
🎯 应用场景
该研究成果可广泛应用于天文观测领域,例如智能望远镜调度、观测计划优化、数据质量评估等。通过准确的云层分割和短期预测,可以提高天文观测的效率和数据质量。此外,该数据集和算法也可应用于气象研究、环境监测等领域,为云层变化分析和气候预测提供数据支持。
📄 摘要(原文)
Ground-based time-domain observatories require minute-by-minute, site-scale awareness of cloud cover, yet existing all-sky datasets are short, daylight-biased, or lack astrometric calibration. We present LenghuSky-8, an eight-year (2018-2025) all-sky imaging dataset from a premier astronomical site, comprising 429,620 $512 \times 512$ frames with 81.2% night-time coverage, star-aware cloud masks, background masks, and per-pixel altitude-azimuth (Alt-Az) calibration. For robust cloud segmentation across day, night, and lunar phases, we train a linear probe on DINOv3 local features and obtain 93.3% $\pm$ 1.1% overall accuracy on a balanced, manually labeled set of 1,111 images. Using stellar astrometry, we map each pixel to local alt-az coordinates and measure calibration uncertainties of approximately 0.37 deg at zenith and approximately 1.34 deg at 30 deg altitude, sufficient for integration with telescope schedulers. Beyond segmentation, we introduce a short-horizon nowcasting benchmark over per-pixel three-class logits (sky/cloud/contamination) with four baselines: persistence (copying the last frame), optical flow, ConvLSTM, and VideoGPT. ConvLSTM performs best but yields only limited gains over persistence, underscoring the difficulty of near-term cloud evolution. We release the dataset, calibrations, and an open-source toolkit for loading, evaluation, and scheduler-ready alt-az maps to boost research in segmentation, nowcasting, and autonomous observatory operations.