Geodiffussr: Generative Terrain Texturing with Elevation Fidelity
作者: Tai Inui, Alexander Matsumura, Edgar Simo-Serra
分类: cs.GR, cs.CV
发布日期: 2025-11-28
💡 一句话要点
Geodiffussr:提出高程保真度的生成式地形纹理化方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 地形生成 纹理合成 数字高程模型 流匹配 多尺度内容聚合
📋 核心要点
- 现有地形生成方法难以在生成纹理时保证与数字高程模型(DEM)的高度一致性。
- Geodiffussr通过多尺度内容聚合(MCA)机制,将DEM特征注入UNet,从而强制全局到局部的高程一致性。
- 实验表明,MCA显著提升了视觉保真度,并增强了高度与外观的耦合性,各项指标均优于基线模型。
📝 摘要(中文)
大规模地形生成在计算机图形学中仍然是一项劳动密集型任务。我们提出了Geodiffussr,一个流匹配管道,它在严格遵守提供的数字高程模型(DEM)的同时,合成文本引导的纹理贴图。核心机制是多尺度内容聚合(MCA):来自预训练编码器的DEM特征被注入到多个分辨率的UNet块中,以强制执行全局到局部的高程一致性。与非MCA基线相比,MCA显著提高了视觉保真度并加强了高度-外观耦合(FID降低49.16%,LPIPS降低32.33%,$Δ$dCor降低至0.0016)。为了训练和评估Geodiffussr,我们组装了一个全球分布的、生物群落和气候分层的语料库,该语料库将源自SRTM的DEM与Sentinel-2图像以及描述可见土地覆盖的视觉基础自然语言描述配对。我们将Geodiffussr定位为一个强大的基线,并朝着可控的2.5D景观生成迈进,用于粗略的构思和预可视化,与基于物理的地形和生态系统模拟器互补。
🔬 方法详解
问题定义:论文旨在解决大规模地形生成中,如何生成与给定数字高程模型(DEM)高度一致的纹理贴图的问题。现有方法在生成纹理时,难以保证与DEM的精确对应,导致视觉效果不佳,高度与外观不匹配。
核心思路:论文的核心思路是利用流匹配模型,并引入多尺度内容聚合(MCA)机制,将DEM信息以多尺度的形式融入到纹理生成过程中。通过在不同分辨率层级上注入DEM特征,可以有效约束生成纹理的高度信息,从而保证与DEM的一致性。
技术框架:Geodiffussr采用流匹配管道作为整体框架,使用UNet作为生成器。其主要模块包括:1) 预训练的DEM特征编码器,用于提取DEM的多尺度特征;2) 多尺度内容聚合(MCA)模块,将DEM特征注入到UNet的各个分辨率层级;3) 纹理生成器(UNet),基于DEM特征和文本引导生成纹理贴图。整个流程通过流匹配目标进行训练,使得生成过程更加稳定和可控。
关键创新:论文最重要的创新点在于提出了多尺度内容聚合(MCA)机制。与传统方法直接将DEM作为输入不同,MCA将DEM特征以多尺度的形式注入到UNet的不同层级,从而更好地捕捉全局和局部的地形信息,并将其融入到纹理生成过程中。这种方法能够更有效地约束生成纹理的高度信息,保证与DEM的一致性。
关键设计:MCA模块的关键设计在于如何选择合适的DEM特征注入位置和方式。论文选择将DEM特征注入到UNet的各个分辨率层级,并使用残差连接的方式进行融合。此外,论文还构建了一个大规模的、全球分布的、生物群落和气候分层的DEM-图像-文本三元组数据集,用于训练和评估Geodiffussr。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Geodiffussr在视觉保真度和高度-外观耦合方面均优于基线模型。具体而言,与非MCA基线相比,Geodiffussr的FID降低了49.16%,LPIPS降低了32.33%,$Δ$dCor降低至0.0016。这些数据表明,MCA机制能够有效提升生成纹理的质量,并保证与DEM的一致性。
🎯 应用场景
Geodiffussr可应用于游戏开发、电影制作、虚拟现实等领域,用于快速生成逼真的地形纹理。该方法能够根据DEM和文本描述自动生成地形纹理,大大减少了人工制作的工作量,并为地形设计提供了更多的可能性。未来,该技术有望与物理模拟器结合,实现更加真实和可控的景观生成。
📄 摘要(原文)
Large-scale terrain generation remains a labor-intensive task in computer graphics. We introduce Geodiffussr, a flow-matching pipeline that synthesizes text-guided texture maps while strictly adhering to a supplied Digital Elevation Map (DEM). The core mechanism is multi-scale content aggregation (MCA): DEM features from a pretrained encoder are injected into UNet blocks at multiple resolutions to enforce global-to-local elevation consistency. Compared with a non-MCA baseline, MCA markedly improves visual fidelity and strengthens height-appearance coupling (FID $\downarrow$ 49.16%, LPIPS $\downarrow$ 32.33%, $Δ$dCor $\downarrow$ to 0.0016). To train and evaluate Geodiffussr, we assemble a globally distributed, biome- and climate-stratified corpus of triplets pairing SRTM-derived DEMs with Sentinel-2 imagery and vision-grounded natural-language captions that describe visible land cover. We position Geodiffussr as a strong baseline and step toward controllable 2.5D landscape generation for coarse-scale ideation and previz, complementary to physically based terrain and ecosystem simulators.