Diachronic Stereo Matching for Multi-Date Satellite Imagery
作者: Elías Masquil, Luca Savant Aira, Roger Marí, Thibaud Ehret, Pablo Musé, Gabriele Facciolo
分类: cs.CV
发布日期: 2026-01-30
期刊: ISPRS congress, ISPRS, Jul 2026, Toronto, Canada
💡 一句话要点
提出历时立体匹配方法,解决多时相卫星影像三维重建难题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 历时立体匹配 多时相卫星影像 三维重建 深度学习 单目深度先验
📋 核心要点
- 传统立体匹配方法在处理多时相卫星影像时,由于光照、季节变化等因素导致性能显著下降。
- 论文提出一种历时立体匹配方法,通过微调深度立体网络并结合单目深度先验,提升匹配精度。
- 实验表明,该方法在多时相WorldView-3影像上优于传统方法和未调整的深度立体模型。
📝 摘要(中文)
图像卫星三维重建的最新进展主要有两个方向:一是多时相方法,利用NeRF或Gaussian-splatting联合建模跨多个采集日期的外观和几何信息,在机会主义图像上实现精确重建;二是经典立体视觉重建流程,为同步或准同步图像对提供鲁棒和可扩展的结果。然而,当两幅图像的采集时间相隔数月时,强烈的季节、光照和阴影变化违反了标准立体视觉假设,导致现有流程失效。本文提出了第一个用于卫星图像的历时立体匹配方法,能够从时间上相距较远的图像对中进行可靠的三维重建。这得益于两项进展:(1) 微调了一个利用单目深度先验的先进深度立体网络;(2) 将其暴露于一个专门策划的、包含各种历时图像对的数据集。具体来说,我们从一个预训练的MonSter模型开始,该模型最初在SceneFlow和KITTI等合成和真实数据集的混合上进行训练,并在从DFC2019遥感挑战赛中衍生出的一组立体图像对上对其进行微调。该数据集包含各种季节和光照条件下的同步和历时图像对。在多时相WorldView-3图像上的实验表明,我们的方法在同步和历时设置下始终优于经典流程和未调整的深度立体模型。在时间上多样化的图像上进行微调,以及单目先验,对于从以前不兼容的采集日期启用三维重建至关重要。
🔬 方法详解
问题定义:论文旨在解决多时相卫星影像的三维重建问题。由于不同时期的影像存在显著的光照、季节和阴影变化,传统的立体匹配方法难以准确匹配,导致重建精度下降。现有方法要么依赖大量同步或准同步图像,要么无法处理时间间隔较长的图像对。
核心思路:论文的核心思路是利用深度学习方法,特别是深度立体匹配网络,并结合单目深度先验知识,来增强模型对光照、季节等变化的鲁棒性。通过在一个包含大量历时图像对的数据集上进行微调,使模型能够适应不同时期的影像特征。
技术框架:整体流程包括以下几个主要步骤:1) 选择一个预训练的深度立体匹配网络(MonSter),该网络已在大量合成和真实数据集上进行训练;2) 构建一个包含同步和历时卫星影像对的数据集,该数据集涵盖各种季节和光照条件;3) 使用该数据集对预训练网络进行微调,使其适应多时相卫星影像的特点;4) 使用微调后的网络进行立体匹配,生成视差图,并最终重建三维模型。
关键创新:论文的关键创新在于:1) 提出了历时立体匹配的概念,并针对多时相卫星影像的特点设计了相应的解决方案;2) 利用单目深度先验来约束立体匹配过程,提高匹配的准确性和鲁棒性;3) 构建了一个包含大量历时图像对的数据集,为深度学习模型的训练和评估提供了支持。
关键设计:论文使用预训练的MonSter模型作为基础网络,该模型具有良好的深度估计能力。微调过程中,使用了包含同步和历时图像对的数据集,并可能采用了特定的损失函数来优化模型对光照、季节等变化的适应性。具体参数设置和网络结构细节可能参考了MonSter模型的原始设计。
📊 实验亮点
实验结果表明,该方法在多时相WorldView-3影像上显著优于传统的立体匹配方法和未经过微调的深度立体模型。例如,在Omaha测试场景的冬季-秋季图像对上,该方法的平均高度误差为1.23米,而零样本方法的误差为3.99米。这表明该方法能够有效地处理多时相影像中的光照和季节变化,实现更精确的三维重建。
🎯 应用场景
该研究成果可应用于城市三维建模、地形变化监测、自然灾害评估等领域。通过利用历史卫星影像,可以实现对地表长期变化的分析和监测,为城市规划、环境保护和灾害预警提供重要支持。该方法还可以扩展到其他遥感影像领域,例如无人机影像的三维重建。
📄 摘要(原文)
Recent advances in image-based satellite 3D reconstruction have progressed along two complementary directions. On one hand, multi-date approaches using NeRF or Gaussian-splatting jointly model appearance and geometry across many acquisitions, achieving accurate reconstructions on opportunistic imagery with numerous observations. On the other hand, classical stereoscopic reconstruction pipelines deliver robust and scalable results for simultaneous or quasi-simultaneous image pairs. However, when the two images are captured months apart, strong seasonal, illumination, and shadow changes violate standard stereoscopic assumptions, causing existing pipelines to fail. This work presents the first Diachronic Stereo Matching method for satellite imagery, enabling reliable 3D reconstruction from temporally distant pairs. Two advances make this possible: (1) fine-tuning a state-of-the-art deep stereo network that leverages monocular depth priors, and (2) exposing it to a dataset specifically curated to include a diverse set of diachronic image pairs. In particular, we start from a pretrained MonSter model, trained initially on a mix of synthetic and real datasets such as SceneFlow and KITTI, and fine-tune it on a set of stereo pairs derived from the DFC2019 remote sensing challenge. This dataset contains both synchronic and diachronic pairs under diverse seasonal and illumination conditions. Experiments on multi-date WorldView-3 imagery demonstrate that our approach consistently surpasses classical pipelines and unadapted deep stereo models on both synchronic and diachronic settings. Fine-tuning on temporally diverse images, together with monocular priors, proves essential for enabling 3D reconstruction from previously incompatible acquisition dates. Left image (winter) Right image (autumn) DSM geometry Ours (1.23 m) Zero-shot (3.99 m) LiDAR GT Figure 1. Output geometry for a winter-autumn image pair from Omaha (OMA 331 test scene). Our method recovers accurate geometry despite the diachronic nature of the pair, exhibiting strong appearance changes, which cause existing zero-shot methods to fail. Missing values due to perspective shown in black. Mean altitude error in parentheses; lower is better.