Repurposing Geometric Foundation Models for Multi-view Diffusion

📄 arXiv: 2603.22275v1 📥 PDF

作者: Wooseok Jang, Seonghu Jeon, Jisang Han, Jinhyeok Choi, Minkyung Kwon, Seungryong Kim, Saining Xie, Sainan Liu

分类: cs.CV

发布日期: 2026-03-23

备注: project website: https://cvlab-kaist.github.io/GLD/


💡 一句话要点

GLD:利用几何基础模型特征空间进行多视角扩散,实现高质量新视角合成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 新视角合成 几何基础模型 扩散模型 多视角学习 几何一致性

📋 核心要点

  1. 现有新视角合成方法依赖视角无关的VAE潜在空间,缺乏跨视角几何一致性。
  2. GLD利用几何基础模型的几何一致特征空间作为潜在空间,编码跨视角几何对应关系。
  3. 实验表明,GLD在图像质量、3D一致性和训练效率上均优于现有方法,且无需大规模预训练。

📝 摘要(中文)

本文提出了一种名为几何潜在扩散(GLD)的框架,旨在利用几何基础模型中几何一致的特征空间作为多视角扩散的潜在空间,从而实现高质量的新视角合成(NVS)。现有方法通常在视角无关的VAE潜在空间中操作,而GLD表明,几何基础模型的特征不仅支持高保真RGB重建,还编码了强大的跨视角几何对应关系,非常适合NVS。实验结果表明,GLD在2D图像质量和3D一致性指标上均优于VAE和RAE,并且与VAE潜在空间相比,训练速度提高了4.4倍以上。值得注意的是,尽管GLD从头开始训练其扩散模型,没有进行大规模文本到图像的预训练,但其性能仍与利用大规模文本到图像预训练的最新方法相媲美。

🔬 方法详解

问题定义:论文旨在解决新视角合成(NVS)任务中,现有方法在潜在空间中缺乏几何一致性的问题。现有方法,如基于VAE的方法,通常学习视角无关的潜在空间,难以保证生成图像在不同视角下的几何一致性,导致合成质量下降。

核心思路:论文的核心思路是利用几何基础模型(Geometric Foundation Models)中已经学习到的、具有几何一致性的特征空间作为扩散模型的潜在空间。作者认为,这些特征空间不仅能够支持高保真度的RGB重建,还能编码强大的跨视角几何对应关系,从而为NVS提供一个更合适的潜在空间。

技术框架:GLD框架主要包含以下几个阶段:1)利用几何基础模型提取输入图像的几何特征;2)将提取的几何特征作为扩散模型的潜在空间;3)训练一个扩散模型,使其能够在这个几何特征空间中生成新的视角;4)使用训练好的扩散模型,根据给定的视角生成新的图像。整体流程是将多视角图像输入几何基础模型,提取特征,然后训练扩散模型学习这些特征的分布,最后通过采样生成新的视角。

关键创新:该论文的关键创新在于将几何基础模型的特征空间重新用作多视角扩散模型的潜在空间。与以往方法直接使用VAE等学习的潜在空间不同,GLD利用了预训练的几何基础模型中已经存在的几何信息,从而提高了新视角合成的质量和一致性。

关键设计:在具体实现上,论文可能涉及到以下关键设计:1)选择合适的几何基础模型,例如具有良好几何表示能力的模型;2)设计合适的扩散模型结构,使其能够有效地学习几何特征空间中的分布;3)设计合适的损失函数,以保证生成图像的质量和几何一致性。具体的参数设置和网络结构细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GLD在2D图像质量和3D一致性指标上均优于VAE和RAE,训练速度提高了4.4倍以上。更重要的是,GLD在没有大规模文本到图像预训练的情况下,性能仍与使用大规模预训练的SOTA方法相媲美,这表明几何先验知识对于新视角合成的重要性。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、机器人导航、三维重建等领域。例如,在VR/AR中,可以利用该方法生成用户视角的逼真图像,提升沉浸感。在机器人导航中,可以帮助机器人理解周围环境的三维结构,从而更好地进行路径规划。此外,该方法还可以用于从少量图像中重建出高质量的三维模型。

📄 摘要(原文)

While recent advances in generative latent spaces have driven substantial progress in single-image generation, the optimal latent space for novel view synthesis (NVS) remains largely unexplored. In particular, NVS requires geometrically consistent generation across viewpoints, but existing approaches typically operate in a view-independent VAE latent space. In this paper, we propose Geometric Latent Diffusion (GLD), a framework that repurposes the geometrically consistent feature space of geometric foundation models as the latent space for multi-view diffusion. We show that these features not only support high-fidelity RGB reconstruction but also encode strong cross-view geometric correspondences, providing a well-suited latent space for NVS. Our experiments demonstrate that GLD outperforms both VAE and RAE on 2D image quality and 3D consistency metrics, while accelerating training by more than 4.4x compared to the VAE latent space. Notably, GLD remains competitive with state-of-the-art methods that leverage large-scale text-to-image pretraining, despite training its diffusion model from scratch without such generative pretraining.