Orchid: Image Latent Diffusion for Joint Appearance and Geometry Generation
作者: Akshay Krishnan, Xinchen Yan, Vincent Casser, Abhijit Kundu
分类: cs.CV, cs.LG
发布日期: 2025-01-22 (更新: 2025-08-23)
备注: Accepted to ICCV 2025. Project webpage: https://orchid3d.github.io
💡 一句话要点
Orchid:用于联合生成外观和几何信息的图像潜在扩散模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 图像生成 扩散模型 深度估计 表面法线 变分自编码器
📋 核心要点
- 现有方法通常使用分离的模型处理图像外观和几何信息,效率较低且缺乏一致性。
- Orchid通过联合学习颜色、深度和法线图像的先验,实现统一的图像生成和编辑。
- 实验表明,Orchid在几何预测任务上可与SOTA方法媲美,并在图像修复方面表现出更高的真实感。
📝 摘要(中文)
本文提出Orchid,一个统一的潜在扩散模型,它学习联合的外观-几何先验,以在单个扩散过程中生成颜色、深度和表面法线图像。这种统一的方法比当前为外观和几何使用单独模型的pipeline更有效和连贯。Orchid是通用的——它可以直接从文本生成颜色、深度和法线图像,支持通过颜色条件微调进行联合单目深度和法线估计,并通过从联合分布中采样来无缝地修复大型3D区域。它利用了一种新颖的变分自编码器(VAE),该VAE将RGB、相对深度和表面法线联合编码到共享的潜在空间中,并结合了对这些潜在变量进行去噪的潜在扩散模型。大量的实验表明,Orchid在几何预测方面提供了与SOTA特定任务方法具有竞争力的性能,甚至在法线预测精度和深度-法线一致性方面超过了它们。它还可以联合修复颜色-深度-法线图像,与现有的多步方法相比,具有更高的定性真实感。
🔬 方法详解
问题定义:现有方法在处理图像生成和编辑时,通常将外观(颜色)和几何信息(深度、法线)分离建模,导致流程复杂、效率低下,且难以保证生成结果在外观和几何上的一致性。例如,先生成颜色图像,再单独预测深度或法线,容易出现不匹配的情况。
核心思路:Orchid的核心在于学习一个联合的外观-几何先验。它将颜色、深度和法线信息编码到共享的潜在空间中,然后利用扩散模型在该潜在空间中进行生成和编辑。通过这种方式,模型能够同时理解和生成图像的外观和几何信息,从而保证生成结果的一致性和真实感。
技术框架:Orchid包含两个主要模块:一个变分自编码器(VAE)和一个潜在扩散模型。VAE负责将RGB图像、相对深度图和表面法线图编码到共享的潜在空间中,并从潜在空间解码回图像。潜在扩散模型则负责对VAE编码得到的潜在变量进行去噪,从而实现图像的生成和编辑。整个流程包括:1)使用VAE将图像编码到潜在空间;2)使用扩散模型对潜在变量进行迭代去噪;3)使用VAE将去噪后的潜在变量解码回图像空间。
关键创新:Orchid的关键创新在于提出了一个统一的潜在扩散模型,能够同时处理图像的外观和几何信息。与现有方法相比,Orchid无需使用多个独立的模型,从而简化了流程并提高了效率。此外,Orchid还提出了一种新颖的VAE结构,能够有效地将RGB、深度和法线信息编码到共享的潜在空间中。
关键设计:Orchid使用了相对深度图作为深度信息的表示,这有助于提高模型的泛化能力。在VAE中,使用了共享的编码器和独立的解码器来处理RGB、深度和法线信息。扩散模型使用了U-Net结构,并添加了时间步嵌入和文本条件嵌入。损失函数包括VAE的重构损失和扩散模型的去噪损失。具体的参数设置和网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
Orchid在法线预测精度和深度-法线一致性方面超越了SOTA方法。此外,Orchid能够联合修复颜色-深度-法线图像,生成具有更高定性真实感的图像。具体的性能数据和对比基线未知。
🎯 应用场景
Orchid可应用于三维内容生成、虚拟现实、增强现实、机器人视觉等领域。例如,可以用于生成逼真的3D场景,为游戏和电影制作提供素材;可以用于机器人导航,帮助机器人理解周围环境的几何结构;还可以用于医学图像分析,辅助医生进行疾病诊断。该研究的潜在价值在于提高三维内容生成的效率和质量,并为相关应用提供更强大的技术支持。
📄 摘要(原文)
We introduce Orchid, a unified latent diffusion model that learns a joint appearance-geometry prior to generate color, depth, and surface normal images in a single diffusion process. This unified approach is more efficient and coherent than current pipelines that use separate models for appearance and geometry. Orchid is versatile - it directly generates color, depth, and normal images from text, supports joint monocular depth and normal estimation with color-conditioned finetuning, and seamlessly inpaints large 3D regions by sampling from the joint distribution. It leverages a novel Variational Autoencoder (VAE) that jointly encodes RGB, relative depth, and surface normals into a shared latent space, combined with a latent diffusion model that denoises these latents. Our extensive experiments demonstrate that Orchid delivers competitive performance against SOTA task-specific methods for geometry prediction, even surpassing them in normal-prediction accuracy and depth-normal consistency. It also inpaints color-depth-normal images jointly, with more qualitative realism than existing multi-step methods.