Inferring Height from Earth Embeddings: First insights using Google AlphaEarth
作者: Alireza Hamoudzadeh, Valeria Belloni, Roberta Ravanelli
分类: cs.CV
发布日期: 2026-02-19
备注: 29 pages, 9 figures
💡 一句话要点
利用AlphaEarth嵌入,结合深度学习回归模型,实现区域地表高度精确映射。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AlphaEarth嵌入 地表高度映射 深度学习 U-Net U-Net++ 地理空间信息 遥感 回归模型
📋 核心要点
- 现有区域地表高度映射方法精度不足,且难以有效利用多模态地理空间信息。
- 利用AlphaEarth Embeddings编码的地理空间和多模态特征,指导深度学习模型进行地表高度回归。
- U-Net++模型在测试集上表现出更好的泛化能力(R^2=0.84),验证了嵌入的有效性和模型的鲁棒性。
📝 摘要(中文)
本研究探讨了 extit{Earth Embeddings}中编码的地理空间和多模态特征是否能有效指导深度学习(DL)回归模型进行区域地表高度映射。特别地,我们关注10米空间分辨率的AlphaEarth Embeddings,并评估了它们使用高质量数字表面模型(DSM)作为参考来支持地形高度推断的能力。因此,采用U-Net和U-Net++架构作为轻量级卷积解码器,以评估嵌入中提取的地理空间信息能够多好地转化为准确的地表高度估计。两种架构都取得了强大的训练性能(均为$R^2 = 0.97$),证实了嵌入编码了信息丰富且可解码的高度相关信号。在测试集上,由于训练和测试区域之间的高度频率分布存在差异,性能有所下降。然而,与标准U-Net($R^2 = 0.78$,中值差 = -7.22 m)相比,U-Net++显示出更好的泛化能力($R^2 = 0.84$,中值差 = -2.62 m),表明对分布不匹配的鲁棒性增强。虽然测试RMSE(U-Net++约为16 m)和残差偏差突出了泛化中仍然存在的挑战,但强相关性表明嵌入捕获了可转移的地形模式。总的来说,结果表明AlphaEarth Embeddings在指导基于DL的高度映射工作流程方面具有广阔的潜力,特别是当与空间感知卷积架构相结合时,同时强调需要解决偏差以提高区域可转移性。
🔬 方法详解
问题定义:论文旨在解决区域地表高度精确映射的问题。现有方法可能存在精度不足,难以有效融合多源地理空间数据,以及泛化能力较弱等痛点。尤其是在训练数据和测试数据分布存在差异时,性能会显著下降。
核心思路:论文的核心思路是利用预训练的AlphaEarth Embeddings,该嵌入包含了丰富的地理空间和多模态信息,作为深度学习模型的输入,从而指导模型进行地表高度的回归预测。通过这种方式,可以有效利用大规模的地理空间数据,提升模型的精度和泛化能力。
技术框架:整体框架包括以下几个主要步骤:1) 使用AlphaEarth Embeddings提取地理空间特征;2) 使用U-Net或U-Net++作为解码器,将嵌入特征转化为地表高度估计;3) 使用高质量的数字表面模型(DSM)作为参考,计算损失函数并优化模型参数;4) 在独立的测试集上评估模型的性能。
关键创新:论文的关键创新在于将AlphaEarth Embeddings应用于地表高度映射任务,并验证了其有效性。此外,论文还比较了U-Net和U-Net++两种不同的解码器架构,发现U-Net++具有更好的泛化能力,能够更好地应对训练数据和测试数据分布差异带来的挑战。
关键设计:论文使用了10米空间分辨率的AlphaEarth Embeddings。U-Net和U-Net++作为轻量级卷积解码器,用于将嵌入特征解码为高度估计。使用R^2作为评估指标,并分析了中值差、RMSE等指标来评估模型的性能。损失函数的具体形式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,U-Net和U-Net++在训练集上均取得了较高的R^2值(0.97),表明AlphaEarth Embeddings包含了丰富的高度相关信息。在测试集上,U-Net++的R^2值为0.84,中值差为-2.62 m,优于U-Net(R^2=0.78,中值差=-7.22 m),表明U-Net++具有更好的泛化能力。虽然RMSE仍有待提高,但结果验证了AlphaEarth Embeddings在指导地表高度映射方面的潜力。
🎯 应用场景
该研究成果可应用于多种领域,如城市规划、环境监测、自然灾害评估和三维地图构建等。高精度的地表高度信息对于这些应用至关重要。未来,该方法可以结合其他遥感数据和地理信息系统,构建更全面的地理空间信息平台,为决策提供支持。
📄 摘要(原文)
This study investigates whether the geospatial and multimodal features encoded in \textit{Earth Embeddings} can effectively guide deep learning (DL) regression models for regional surface height mapping. In particular, we focused on AlphaEarth Embeddings at 10 m spatial resolution and evaluated their capability to support terrain height inference using a high-quality Digital Surface Model (DSM) as reference. U-Net and U-Net++ architectures were thus employed as lightweight convolutional decoders to assess how well the geospatial information distilled in the embeddings can be translated into accurate surface height estimates. Both architectures achieved strong training performance (both with $R^2 = 0.97$), confirming that the embeddings encode informative and decodable height-related signals. On the test set, performance decreased due to distribution shifts in height frequency between training and testing areas. Nevertheless, U-Net++ shows better generalization ($R^2 = 0.84$, median difference = -2.62 m) compared with the standard U-Net ($R^2 = 0.78$, median difference = -7.22 m), suggesting enhanced robustness to distribution mismatch. While the testing RMSE (approximately 16 m for U-Net++) and residual bias highlight remaining challenges in generalization, strong correlations indicate that the embeddings capture transferable topographic patterns. Overall, the results demonstrate the promising potential of AlphaEarth Embeddings to guide DL-based height mapping workflows, particularly when combined with spatially aware convolutional architectures, while emphasizing the need to address bias for improved regional transferability.