Orchid: Image Latent Diffusion for Joint Appearance and Geometry Generation

作者: Akshay Krishnan, Xinchen Yan, Vincent Casser, Abhijit Kundu

分类: cs.CV, cs.LG

发布日期: 2025-01-22 (更新: 2025-08-23)

备注: Accepted to ICCV 2025. Project webpage: https://orchid3d.github.io

💡 一句话要点

Orchid：用于联合生成外观和几何信息的图像潜在扩散模型

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 图像生成 扩散模型 深度估计 表面法线 变分自编码器

📋 核心要点

现有方法通常使用分离的模型处理图像外观和几何信息，效率较低且缺乏一致性。
Orchid通过联合学习颜色、深度和法线图像的先验，实现统一的图像生成和编辑。
实验表明，Orchid在几何预测任务上可与SOTA方法媲美，并在图像修复方面表现出更高的真实感。

📝 摘要（中文）

本文提出Orchid，一个统一的潜在扩散模型，它学习联合的外观-几何先验，以在单个扩散过程中生成颜色、深度和表面法线图像。这种统一的方法比当前为外观和几何使用单独模型的pipeline更有效和连贯。Orchid是通用的——它可以直接从文本生成颜色、深度和法线图像，支持通过颜色条件微调进行联合单目深度和法线估计，并通过从联合分布中采样来无缝地修复大型3D区域。它利用了一种新颖的变分自编码器（VAE），该VAE将RGB、相对深度和表面法线联合编码到共享的潜在空间中，并结合了对这些潜在变量进行去噪的潜在扩散模型。大量的实验表明，Orchid在几何预测方面提供了与SOTA特定任务方法具有竞争力的性能，甚至在法线预测精度和深度-法线一致性方面超过了它们。它还可以联合修复颜色-深度-法线图像，与现有的多步方法相比，具有更高的定性真实感。

🔬 方法详解

问题定义：现有方法在处理图像生成和编辑时，通常将外观（颜色）和几何信息（深度、法线）分离建模，导致流程复杂、效率低下，且难以保证生成结果在外观和几何上的一致性。例如，先生成颜色图像，再单独预测深度或法线，容易出现不匹配的情况。

核心思路：Orchid的核心在于学习一个联合的外观-几何先验。它将颜色、深度和法线信息编码到共享的潜在空间中，然后利用扩散模型在该潜在空间中进行生成和编辑。通过这种方式，模型能够同时理解和生成图像的外观和几何信息，从而保证生成结果的一致性和真实感。

技术框架：Orchid包含两个主要模块：一个变分自编码器（VAE）和一个潜在扩散模型。VAE负责将RGB图像、相对深度图和表面法线图编码到共享的潜在空间中，并从潜在空间解码回图像。潜在扩散模型则负责对VAE编码得到的潜在变量进行去噪，从而实现图像的生成和编辑。整个流程包括：1）使用VAE将图像编码到潜在空间；2）使用扩散模型对潜在变量进行迭代去噪；3）使用VAE将去噪后的潜在变量解码回图像空间。

关键创新：Orchid的关键创新在于提出了一个统一的潜在扩散模型，能够同时处理图像的外观和几何信息。与现有方法相比，Orchid无需使用多个独立的模型，从而简化了流程并提高了效率。此外，Orchid还提出了一种新颖的VAE结构，能够有效地将RGB、深度和法线信息编码到共享的潜在空间中。

关键设计：Orchid使用了相对深度图作为深度信息的表示，这有助于提高模型的泛化能力。在VAE中，使用了共享的编码器和独立的解码器来处理RGB、深度和法线信息。扩散模型使用了U-Net结构，并添加了时间步嵌入和文本条件嵌入。损失函数包括VAE的重构损失和扩散模型的去噪损失。具体的参数设置和网络结构细节未知。

🖼️ 关键图片

📊 实验亮点

Orchid在法线预测精度和深度-法线一致性方面超越了SOTA方法。此外，Orchid能够联合修复颜色-深度-法线图像，生成具有更高定性真实感的图像。具体的性能数据和对比基线未知。

🎯 应用场景

Orchid可应用于三维内容生成、虚拟现实、增强现实、机器人视觉等领域。例如，可以用于生成逼真的3D场景，为游戏和电影制作提供素材；可以用于机器人导航，帮助机器人理解周围环境的几何结构；还可以用于医学图像分析，辅助医生进行疾病诊断。该研究的潜在价值在于提高三维内容生成的效率和质量，并为相关应用提供更强大的技术支持。

📄 摘要（原文）

We introduce Orchid, a unified latent diffusion model that learns a joint appearance-geometry prior to generate color, depth, and surface normal images in a single diffusion process. This unified approach is more efficient and coherent than current pipelines that use separate models for appearance and geometry. Orchid is versatile - it directly generates color, depth, and normal images from text, supports joint monocular depth and normal estimation with color-conditioned finetuning, and seamlessly inpaints large 3D regions by sampling from the joint distribution. It leverages a novel Variational Autoencoder (VAE) that jointly encodes RGB, relative depth, and surface normals into a shared latent space, combined with a latent diffusion model that denoises these latents. Our extensive experiments demonstrate that Orchid delivers competitive performance against SOTA task-specific methods for geometry prediction, even surpassing them in normal-prediction accuracy and depth-normal consistency. It also inpaints color-depth-normal images jointly, with more qualitative realism than existing multi-step methods.

Orchid: Image Latent Diffusion for Joint Appearance and Geometry Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理