Geodiffussr: Generative Terrain Texturing with Elevation Fidelity

作者: Tai Inui, Alexander Matsumura, Edgar Simo-Serra

分类: cs.GR, cs.CV

发布日期: 2025-11-28

💡 一句话要点

Geodiffussr：提出高程保真度的生成式地形纹理化方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 地形生成 纹理合成 数字高程模型 流匹配 多尺度内容聚合

📋 核心要点

现有地形生成方法难以在生成纹理时保证与数字高程模型（DEM）的高度一致性。
Geodiffussr通过多尺度内容聚合（MCA）机制，将DEM特征注入UNet，从而强制全局到局部的高程一致性。
实验表明，MCA显著提升了视觉保真度，并增强了高度与外观的耦合性，各项指标均优于基线模型。

📝 摘要（中文）

大规模地形生成在计算机图形学中仍然是一项劳动密集型任务。我们提出了Geodiffussr，一个流匹配管道，它在严格遵守提供的数字高程模型（DEM）的同时，合成文本引导的纹理贴图。核心机制是多尺度内容聚合（MCA）：来自预训练编码器的DEM特征被注入到多个分辨率的UNet块中，以强制执行全局到局部的高程一致性。与非MCA基线相比，MCA显著提高了视觉保真度并加强了高度-外观耦合（FID降低49.16%，LPIPS降低32.33%，$Δ$dCor降低至0.0016）。为了训练和评估Geodiffussr，我们组装了一个全球分布的、生物群落和气候分层的语料库，该语料库将源自SRTM的DEM与Sentinel-2图像以及描述可见土地覆盖的视觉基础自然语言描述配对。我们将Geodiffussr定位为一个强大的基线，并朝着可控的2.5D景观生成迈进，用于粗略的构思和预可视化，与基于物理的地形和生态系统模拟器互补。

🔬 方法详解

问题定义：论文旨在解决大规模地形生成中，如何生成与给定数字高程模型（DEM）高度一致的纹理贴图的问题。现有方法在生成纹理时，难以保证与DEM的精确对应，导致视觉效果不佳，高度与外观不匹配。

核心思路：论文的核心思路是利用流匹配模型，并引入多尺度内容聚合（MCA）机制，将DEM信息以多尺度的形式融入到纹理生成过程中。通过在不同分辨率层级上注入DEM特征，可以有效约束生成纹理的高度信息，从而保证与DEM的一致性。

技术框架：Geodiffussr采用流匹配管道作为整体框架，使用UNet作为生成器。其主要模块包括：1) 预训练的DEM特征编码器，用于提取DEM的多尺度特征；2) 多尺度内容聚合（MCA）模块，将DEM特征注入到UNet的各个分辨率层级；3) 纹理生成器（UNet），基于DEM特征和文本引导生成纹理贴图。整个流程通过流匹配目标进行训练，使得生成过程更加稳定和可控。

关键创新：论文最重要的创新点在于提出了多尺度内容聚合（MCA）机制。与传统方法直接将DEM作为输入不同，MCA将DEM特征以多尺度的形式注入到UNet的不同层级，从而更好地捕捉全局和局部的地形信息，并将其融入到纹理生成过程中。这种方法能够更有效地约束生成纹理的高度信息，保证与DEM的一致性。

关键设计：MCA模块的关键设计在于如何选择合适的DEM特征注入位置和方式。论文选择将DEM特征注入到UNet的各个分辨率层级，并使用残差连接的方式进行融合。此外，论文还构建了一个大规模的、全球分布的、生物群落和气候分层的DEM-图像-文本三元组数据集，用于训练和评估Geodiffussr。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Geodiffussr在视觉保真度和高度-外观耦合方面均优于基线模型。具体而言，与非MCA基线相比，Geodiffussr的FID降低了49.16%，LPIPS降低了32.33%，$Δ$dCor降低至0.0016。这些数据表明，MCA机制能够有效提升生成纹理的质量，并保证与DEM的一致性。

🎯 应用场景

Geodiffussr可应用于游戏开发、电影制作、虚拟现实等领域，用于快速生成逼真的地形纹理。该方法能够根据DEM和文本描述自动生成地形纹理，大大减少了人工制作的工作量，并为地形设计提供了更多的可能性。未来，该技术有望与物理模拟器结合，实现更加真实和可控的景观生成。

📄 摘要（原文）

Large-scale terrain generation remains a labor-intensive task in computer graphics. We introduce Geodiffussr, a flow-matching pipeline that synthesizes text-guided texture maps while strictly adhering to a supplied Digital Elevation Map (DEM). The core mechanism is multi-scale content aggregation (MCA): DEM features from a pretrained encoder are injected into UNet blocks at multiple resolutions to enforce global-to-local elevation consistency. Compared with a non-MCA baseline, MCA markedly improves visual fidelity and strengthens height-appearance coupling (FID $\downarrow$ 49.16%, LPIPS $\downarrow$ 32.33%, $Δ$dCor $\downarrow$ to 0.0016). To train and evaluate Geodiffussr, we assemble a globally distributed, biome- and climate-stratified corpus of triplets pairing SRTM-derived DEMs with Sentinel-2 imagery and vision-grounded natural-language captions that describe visible land cover. We position Geodiffussr as a strong baseline and step toward controllable 2.5D landscape generation for coarse-scale ideation and previz, complementary to physically based terrain and ecosystem simulators.

Geodiffussr: Generative Terrain Texturing with Elevation Fidelity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理