Dream-in-Style: Text-to-3D Generation Using Stylized Score Distillation

📄 arXiv: 2406.18581v2 📥 PDF

作者: Hubert Kompanowski, Binh-Son Hua

分类: cs.CV, cs.GR

发布日期: 2024-06-05 (更新: 2025-02-13)


💡 一句话要点

Dream-in-Style:提出基于风格化Score Distillation的文本到3D生成方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 文本到3D生成 风格迁移 神经辐射场 Score Distillation 自注意力机制

📋 核心要点

  1. 现有文本到3D生成方法难以控制生成对象的风格,缺乏对风格化生成能力的支持。
  2. 提出风格化Score Distillation损失,结合原始文本到图像模型及其风格迁移变体,引导3D优化。
  3. 实验表明,该方法在风格化3D生成方面优于现有技术,用户研究也验证了其视觉效果。

📝 摘要(中文)

本文提出了一种生成具有风格的3D对象的方法。该方法以文本提示和风格参考图像作为输入,重建神经辐射场,从而合成一个3D模型,使其内容与文本提示对齐,风格与参考图像一致。为了同时生成3D对象并执行风格迁移,我们提出了一种风格化的Score Distillation损失,以指导文本到3D的优化过程,从而输出视觉上合理的几何形状和外观。我们的风格化Score Distillation基于原始预训练文本到图像模型及其修改后的版本,通过操纵自注意力层的键和值特征来注入参考图像的风格。与最先进方法的比较表明,我们的方法具有强大的视觉性能,用户研究的定量结果进一步支持了这一点。

🔬 方法详解

问题定义:论文旨在解决文本到3D生成中缺乏风格控制的问题。现有方法通常只能根据文本提示生成3D模型,而无法将参考图像的风格融入到生成结果中,导致生成结果缺乏多样性和艺术性。

核心思路:论文的核心思路是利用预训练的文本到图像模型,通过Score Distillation的方式指导3D模型的生成,并引入风格参考图像,通过修改自注意力层的特征来注入风格信息。这样可以在生成3D模型的同时,实现风格迁移的效果。

技术框架:整体框架包括以下几个主要步骤:1) 输入文本提示和风格参考图像;2) 使用预训练的文本到图像模型生成图像;3) 修改文本到图像模型的自注意力层,注入风格信息;4) 使用风格化的Score Distillation损失,优化神经辐射场,生成3D模型。

关键创新:最重要的技术创新点在于风格化的Score Distillation损失。该损失函数结合了原始文本到图像模型和风格迁移后的模型,可以同时保证生成结果与文本提示的一致性,并具有参考图像的风格。

关键设计:关键设计包括:1) 使用预训练的文本到图像模型,例如Stable Diffusion,作为基础模型;2) 通过修改自注意力层的键和值特征来注入风格信息,具体来说,使用参考图像的自注意力特征替换原始模型的特征;3) 使用神经辐射场(NeRF)作为3D模型的表示形式,并使用体积渲染技术生成图像;4) 使用Adam优化器优化NeRF的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Dream-in-Style在风格化3D生成方面取得了显著的成果。与现有方法相比,该方法能够生成更符合文本提示和风格参考图像的3D模型。用户研究表明,用户对该方法生成的3D模型的视觉质量和风格一致性给予了高度评价。

🎯 应用场景

该研究成果可应用于游戏开发、虚拟现实、增强现实、数字艺术创作等领域。用户可以通过简单的文本描述和风格参考图像,快速生成具有特定风格的3D模型,从而提高创作效率,降低创作门槛。未来,该技术有望进一步发展,实现更加精细和个性化的3D内容生成。

📄 摘要(原文)

We present a method to generate 3D objects in styles. Our method takes a text prompt and a style reference image as input and reconstructs a neural radiance field to synthesize a 3D model with the content aligning with the text prompt and the style following the reference image. To simultaneously generate the 3D object and perform style transfer in one go, we propose a stylized score distillation loss to guide a text-to-3D optimization process to output visually plausible geometry and appearance. Our stylized score distillation is based on a combination of an original pretrained text-to-image model and its modified sibling with the key and value features of self-attention layers manipulated to inject styles from the reference image. Comparisons with state-of-the-art methods demonstrated the strong visual performance of our method, further supported by the quantitative results from our user study.