Sat3R: Satellite DSM Reconstruction via RPC-Aware Depth Fine-tuning

📄 arXiv: 2605.07264v1 📥 PDF

作者: Qiaoyi Yang, Chaoyi Zhou, Xi Liu, Run Wang, Minghui Xu, Mert D. Pesé, Feng Luo, Yuhao Xu, Zhi-Qi Cheng, Qiushi Chen, Hairong Qi, Siyu Huang

分类: cs.CV

发布日期: 2026-05-08


💡 一句话要点

提出Sat3R框架:通过RPC感知深度微调实现高效卫星DSM重建

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 卫星影像 DSM重建 深度估计 RPC模型 基础模型微调 计算机视觉 遥感测绘

📋 核心要点

  1. 现有方法在计算效率与重建精度之间存在矛盾:优化类方法耗时过长,而通用基础模型因缺乏对卫星RPC几何特性的感知,导致域迁移问题严重。
  2. Sat3R提出了一种前馈式框架,通过引入RPC感知机制,利用物理一致的伪深度监督对Depth Anything V2进行微调,实现了对卫星影像的深度适配。
  3. 实验表明,Sat3R在DFC2019数据集上较零样本基线MAE降低38%,推理速度提升300倍,证明了前馈模型在卫星DSM重建中的巨大潜力。

📝 摘要(中文)

从卫星影像中进行精确的数字表面模型(DSM)重建对于灾害响应、城市规划及大规模地理测绘至关重要。现有方法存在根本性的权衡:基于优化的方法精度高但单场景计算耗时数小时;而通用的几何基础模型虽能实现近乎即时的推理,却因有理多项式相机(RPC)模型引入的域差异及深度尺度分布不匹配,难以直接应用于卫星影像。本文提出了Sat3R,这是一个前馈框架,通过利用尺度不变对数(SiLog)损失对Depth Anything V2进行RPC感知的度量深度微调,弥合了这一差距。通过从RPC几何结构构建物理一致的伪深度监督,Sat3R在无需单场景优化的情况下,将单目深度基础模型适配至卫星领域。在DFC2019基准测试中,Sat3R较零样本前馈基线降低了38%的平均绝对误差(MAE),在保持与优化方法竞争力的同时,实现了超过300倍的推理加速,为大规模卫星DSM重建提供了实用方案。

🔬 方法详解

问题定义:论文旨在解决卫星影像DSM重建中“精度与效率”的权衡问题。现有基于优化的方法(如立体匹配)计算开销巨大,而通用的单目深度估计模型由于缺乏对卫星成像几何(RPC模型)的理解,无法直接处理卫星影像中特有的尺度分布和透视畸变。

核心思路:核心思想是将卫星影像的RPC几何约束转化为深度监督信号。通过利用RPC模型计算出的稀疏几何信息生成伪深度图,作为监督信号对预训练的深度基础模型进行微调,从而使模型具备理解卫星影像尺度和几何结构的能力。

技术框架:Sat3R基于Depth Anything V2架构,引入了RPC感知微调模块。流程包括:首先利用RPC模型和多视影像生成物理一致的伪深度图;随后,将这些伪深度图作为监督信号,通过SiLog损失函数对模型进行微调;最后,模型在推理阶段仅需单次前馈即可输出高精度DSM。

关键创新:最重要的创新在于提出了“RPC感知”的微调策略,成功将卫星领域的物理几何约束注入到通用深度基础模型中,解决了卫星影像与通用自然图像之间的域差异问题。

关键设计:采用尺度不变对数(SiLog)损失函数,该损失函数对深度尺度不敏感,能够有效处理卫星影像中深度范围跨度大的问题;同时,通过构建物理一致的伪深度监督,确保了模型输出的几何准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在DFC2019基准测试中,Sat3R表现优异:相比于零样本前馈基线,MAE指标提升了38%;在保持与传统优化类方法相当的重建精度前提下,推理速度实现了超过300倍的提升。这些数据有力证明了该方法在精度与效率上的双重优势,是目前卫星DSM重建领域的高效解决方案。

🎯 应用场景

Sat3R在地理信息系统(GIS)、城市三维建模、灾害应急响应(如洪水淹没分析、地震损毁评估)以及大规模地形测绘领域具有极高的应用价值。其高效的前馈推理能力使得实时或准实时的大规模卫星影像三维重建成为可能,显著降低了计算资源需求,推动了遥感数据处理的工业化进程。

📄 摘要(原文)

Accurate Digital Surface Model (DSM) reconstruction from satellite imagery is critical for applications such as disaster response, urban planning, and large-scale geographic mapping. Existing approaches face a fundamental trade-off: optimization-based methods achieve strong accuracy but require hours of per-scene computation, while generalizable geometry foundation models offer near-instant inference but fail to generalize to satellite imagery due to the domain gap introduced by the Rational Polynomial Camera (RPC) model and mismatched depth scale distributions. We present Sat3R, a feed-forward framework that bridges this gap via RPC-aware metric depth fine-tuning of Depth Anything V2 using the Scale-Invariant Logarithmic (SiLog) loss. By constructing physically consistent pseudo depth supervision from RPC geometry, Sat3R adapts a monocular depth foundation model to the satellite domain without per-scene optimization. Experiments on the DFC2019 benchmark demonstrate that Sat3R reduces MAE by 38% over zero-shot feed-forward baselines and achieves competitive accuracy against optimization-based methods, while delivering over 300x speedup. Sat3R demonstrates that feed-forward models, when properly adapted to the satellite domain, can match optimization-based accuracy at a fraction of the computational cost, paving the way for practical large-scale satellite DSM reconstruction.