Generative Detail Enhancement for Physically Based Materials
作者: Saeed Hadadan, Benedikt Bitterli, Tizian Zeltner, Jan Novák, Fabrice Rousselle, Jacob Munkberg, Jon Hasselgren, Bartlomiej Wronski, Matthias Zwicker
分类: cs.GR, cs.AI
发布日期: 2025-02-19 (更新: 2025-05-07)
💡 一句话要点
提出一种基于扩散模型和反向渲染的物理材质细节增强工具
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 物理材质增强 扩散模型 反向渲染 多视角一致性 生成式建模
📋 核心要点
- 现有物理材质细节制作繁琐,难以捕捉磨损、老化等真实世界效果。
- 利用扩散模型生成细节,通过反向渲染将细节反向传播到材质参数,实现自动增强。
- 通过视图一致性噪声和几何一致性注意力机制,保证生成细节在多视角下的一致性。
📝 摘要(中文)
本文提出了一种利用现成的扩散模型和反向渲染来增强物理材质细节的工具。目标是通过添加磨损、老化、风化等痕迹,提高材质的视觉逼真度,这些细节通常难以手动制作。由于这些外观细节通常源于真实世界的物理过程,因此利用在大型自然图像数据集上训练的生成图像模型,结合上下文视觉信息。从给定的几何体、UV映射和基本外观开始,渲染对象的多个视图。使用这些视图以及定义外观的文本提示来调节扩散模型。然后,通过可微反向渲染将生成的细节从增强的图像反向传播到材质参数。为了使反向渲染成功,生成的图像外观必须在所有图像中保持一致。提出了两个先验来解决扩散模型的多视图一致性问题。首先,通过从视图无关的UV空间积分,确保扩散过程的初始噪声在视图之间保持一致。其次,通过投影约束偏置注意力机制,强制几何一致性,使像素强烈关注其他视图中对应的像素位置。该方法不需要对扩散模型进行任何训练或微调,与所使用的材质模型无关,并且增强的材质属性(即2D PBR纹理)可以由艺术家进一步编辑。该项目可在https://generative-detail.github.io上找到。
🔬 方法详解
问题定义:论文旨在解决物理材质的细节增强问题。现有手动制作细节的方式非常耗时,且难以模拟真实世界中的磨损、老化等复杂效果。直接使用生成模型生成材质,难以保证多视角一致性,导致渲染结果不真实。
核心思路:论文的核心思路是利用扩散模型强大的生成能力,生成高质量的材质细节,并通过可微反向渲染将这些细节反向传播到材质的参数上。为了保证生成细节的多视角一致性,论文提出了两种先验:视图一致性噪声和几何一致性注意力机制。
技术框架:整体流程如下:1. 输入:几何体、UV映射、基本材质参数和文本提示。2. 渲染:从多个视角渲染对象。3. 扩散模型:使用渲染的图像和文本提示作为条件,利用扩散模型生成增强细节的图像。4. 反向渲染:通过可微反向渲染,将生成的细节反向传播到材质参数。5. 输出:增强细节的材质参数(2D PBR纹理)。
关键创新:论文的关键创新在于提出了两种保证多视角一致性的先验:1. 视图一致性噪声:通过在UV空间中生成噪声,并将其投影到各个视角,保证初始噪声在不同视角下的一致性。2. 几何一致性注意力机制:通过投影约束偏置注意力机制,使像素在注意力计算时更关注其他视图中对应的像素位置。
关键设计:1. 扩散模型:使用预训练的扩散模型,无需额外训练或微调。2. 反向渲染:使用可微渲染器,以便将梯度反向传播到材质参数。3. 损失函数:使用图像重建损失,衡量生成图像与目标图像之间的差异。4. 注意力机制:在标准注意力机制的基础上,添加投影约束,引导注意力集中在对应的像素位置。
🖼️ 关键图片
📊 实验亮点
该方法无需训练或微调扩散模型,即可有效增强物理材质的细节。通过视图一致性噪声和几何一致性注意力机制,保证了生成细节在多视角下的一致性。实验结果表明,该方法能够生成高质量的材质细节,显著提升视觉逼真度,并可由艺术家进一步编辑。
🎯 应用场景
该技术可广泛应用于游戏、电影、广告等领域,用于快速生成高质量的物理材质,提升视觉效果和制作效率。艺术家可以利用该工具快速迭代材质设计,无需手动绘制复杂的细节,从而节省时间和精力。该技术还可以用于创建更逼真的虚拟环境和数字资产。
📄 摘要(原文)
We present a tool for enhancing the detail of physically based materials using an off-the-shelf diffusion model and inverse rendering. Our goal is to enhance the visual fidelity of materials with detail that is often tedious to author, by adding signs of wear, aging, weathering, etc. As these appearance details are often rooted in real-world processes, we leverage a generative image model trained on a large dataset of natural images with corresponding visuals in context. Starting with a given geometry, UV mapping, and basic appearance, we render multiple views of the object. We use these views, together with an appearance-defining text prompt, to condition a diffusion model. The details it generates are then backpropagated from the enhanced images to the material parameters via inverse differentiable rendering. For inverse rendering to be successful, the generated appearance has to be consistent across all the images. We propose two priors to address the multi-view consistency of the diffusion model. First, we ensure that the initial noise that seeds the diffusion process is itself consistent across views by integrating it from a view-independent UV space. Second, we enforce geometric consistency by biasing the attention mechanism via a projective constraint so that pixels attend strongly to their corresponding pixel locations in other views. Our approach does not require any training or finetuning of the diffusion model, is agnostic of the material model used, and the enhanced material properties, i.e., 2D PBR textures, can be further edited by artists. This project is available at https://generative-detail.github.io.