Prompt2DEM: High-Resolution DEMs for Urban and Open Environments from Global Prompts Using a Monocular Foundation Model

作者: Osher Rafaeli, Tal Svoray, Ariel Nahlieli

分类: cs.CV, eess.IV

发布日期: 2025-07-13 (更新: 2025-07-21)

备注: 18 pages

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Prompt2DEM：利用单目基础模型和全局提示，生成城市和开放环境的高分辨率DEM

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数字高程模型 单目深度估计 提示学习 视觉Transformer 高分辨率遥感

📋 核心要点

现有超分辨率DEM方法受限于放大倍数，单目深度估计方法缺乏全局高程信息，难以生成无缝高分辨率DEM。
Prompt2DEM框架利用低分辨率SRTM数据作为提示，结合高分辨率RGB图像，通过微调视觉Transformer编码器生成高分辨率DEM。
实验结果表明，该框架能够实现100倍分辨率提升，在多种地形上表现出良好的泛化能力，并优于SRTM数据。

📝 摘要（中文）

高分辨率高程估计对于理解流域和山坡水文、研究城市形态和动态以及监测陆地生态系统的生长、衰退和死亡至关重要。虽然已经开发了各种深度学习方法（例如，超分辨率技术、单目深度估计）来创建高分辨率数字高程模型（DEM），但超分辨率技术受到放大倍数的限制，而单目深度估计缺乏全局高程背景，限制了其转换为无缝DEM。最近提出的基于提示的单目深度估计技术为提取全局背景下的绝对高程估计提供了新的机会。本文提出了一个用于估计高分辨率DEM的框架，作为绝对全局高程映射的新范例。该框架使用低分辨率航天飞机雷达地形任务（SRTM）高程数据作为提示，以及来自国家农业影像计划（NAIP）的高分辨率RGB图像。该方法使用LiDAR衍生的DEM对视觉Transformer编码器进行微调，并采用通用的提示策略，从而实现DEM估计、空洞填充和更新等任务。我们的框架实现了100倍的分辨率提升（从30米到30厘米），比以前的方法高出一个数量级。在美国三个不同的景观上的评估表明，该框架具有强大的泛化能力，能够捕捉城市结构和精细的地形特征，相对于LiDAR的MAE小于5米，比SRTM提高了高达18%。水文分析证实了其适用于灾害和环境研究。我们通过将该框架应用于美国和以色列的大片区域来展示其可扩展性。所有代码和预训练模型均可在https://osherr1996.github.io/prompt2dem_propage/公开获取。

🔬 方法详解

问题定义：论文旨在解决从低分辨率高程数据和高分辨率RGB图像中生成高分辨率数字高程模型（DEM）的问题。现有方法，如超分辨率技术，受限于固有的放大倍数限制；而传统的单目深度估计方法缺乏全局高程上下文信息，难以生成准确且无缝的DEM。因此，如何有效融合全局高程信息和高分辨率图像细节，生成高质量的DEM，是本研究要解决的核心问题。

核心思路：论文的核心思路是利用“提示（Prompt）”的概念，将低分辨率的全局高程信息（例如SRTM数据）作为先验知识，引导单目深度估计模型生成更准确的高分辨率DEM。通过将低分辨率高程数据作为提示，模型可以更好地理解场景的全局结构和高程分布，从而克服传统单目深度估计方法缺乏全局上下文信息的缺点。

技术框架：Prompt2DEM框架主要包含以下几个关键模块：1) 数据准备：收集低分辨率高程数据（SRTM）和高分辨率RGB图像（NAIP），以及LiDAR数据作为训练标签。2) 模型微调：使用LiDAR数据对视觉Transformer编码器进行微调，使其能够学习从RGB图像和低分辨率高程提示中预测高分辨率DEM。3) 提示策略：设计灵活的提示策略，将低分辨率高程数据有效地融入到模型输入中，引导模型生成准确的高程估计。4) DEM生成与后处理：利用训练好的模型，结合RGB图像和低分辨率高程提示，生成高分辨率DEM，并进行必要的后处理，如空洞填充等。

关键创新：该论文最重要的技术创新在于将“提示学习”的思想引入到DEM生成任务中，利用低分辨率的全局高程信息作为先验知识，指导单目深度估计模型生成更准确的高分辨率DEM。这种方法克服了传统单目深度估计方法缺乏全局上下文信息的缺点，并实现了显著的分辨率提升（100倍）。

关键设计：论文的关键设计包括：1) 使用视觉Transformer作为编码器，能够有效捕捉图像中的长程依赖关系。2) 设计灵活的提示策略，允许模型根据不同的任务（如DEM估计、空洞填充、更新）调整提示方式。3) 使用LiDAR数据作为训练标签，保证了生成DEM的精度。4) 损失函数的设计可能包括L1损失或L2损失，用于衡量预测DEM与LiDAR数据之间的差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Prompt2DEM框架能够实现100倍的分辨率提升（从30米到30厘米），并且在三个不同的美国景观上表现出强大的泛化能力。相对于LiDAR数据，生成的DEM的MAE小于5米，比SRTM数据提高了高达18%。水文分析也证实了该方法生成的DEM适用于灾害和环境研究。

🎯 应用场景

该研究成果可广泛应用于城市规划、环境监测、灾害评估等领域。高分辨率DEM能够帮助我们更好地理解城市地表形态、分析水文特征、评估洪水风险，并为精细农业和生态研究提供重要数据支持。未来，该方法有望应用于更大范围的区域，并与其他遥感数据（如SAR数据）结合，进一步提升DEM的精度和可靠性。

📄 摘要（原文）

High-resolution elevation estimations are essential to understand catchment and hillslope hydrology, study urban morphology and dynamics, and monitor the growth, decline, and mortality of terrestrial ecosystems. Various deep learning approaches (e.g., super-resolution techniques, monocular depth estimation) have been developed to create high-resolution Digital Elevation Models (DEMs). However, super-resolution techniques are limited by the upscaling factor, and monocular depth estimation lacks global elevation context, making its conversion to a seamless DEM restricted. The recently introduced technique of prompt-based monocular depth estimation has opened new opportunities to extract estimates of absolute elevation in a global context. We present here a framework for the estimation of high-resolution DEMs as a new paradigm for absolute global elevation mapping. It is exemplified using low-resolution Shuttle Radar Topography Mission (SRTM) elevation data as prompts and high-resolution RGB imagery from the National Agriculture Imagery Program (NAIP). The approach fine-tunes a vision transformer encoder with LiDAR-derived DEMs and employs a versatile prompting strategy, enabling tasks such as DEM estimation, void filling, and updating. Our framework achieves a 100x resolution gain (from 30-m to 30-cm), surpassing prior methods by an order of magnitude. Evaluations across three diverse U.S. landscapes show robust generalization, capturing urban structures and fine-scale terrain features with < 5 m MAE relative to LiDAR, improving over SRTM by up to 18%. Hydrological analysis confirms suitability for hazard and environmental studies. We demonstrate scalability by applying the framework to large regions in the U.S. and Israel. All code and pretrained models are publicly available at: https://osherr1996.github.io/prompt2dem_propage/.

Prompt2DEM: High-Resolution DEMs for Urban and Open Environments from Global Prompts Using a Monocular Foundation Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理