Taming Mode Collapse in Score Distillation for Text-to-3D Generation

📄 arXiv: 2401.00909v2 📥 PDF

作者: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra

分类: cs.CV, cs.LG

发布日期: 2023-12-31 (更新: 2024-03-29)

备注: Project page: https://vita-group.github.io/3D-Mode-Collapse/


💡 一句话要点

提出Entropic Score Distillation (ESD)以解决文本到3D生成中的Janus伪影问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 文本到3D生成 Score Distillation Janus伪影 Mode Collapse 熵最大化 Classifier-Free Guidance

📋 核心要点

  1. 现有基于score distillation的文本到3D生成方法易出现视角不一致的Janus伪影,缺乏理论解释和有效解决方案。
  2. 论文提出Entropic Score Distillation (ESD),通过在变分目标中引入熵项,鼓励不同视角的多样性,抑制mode collapse。
  3. 实验表明,ESD能有效减轻Janus伪影,且实现方式简单,仅需在变分score distillation上应用classifier-free guidance。

📝 摘要(中文)

尽管基于score distillation的文本到3D生成技术表现出色,但其存在视角不一致问题,即“Janus”伪影,生成的对象在每个视角都呈现多个正面。虽然经验方法通过score debiasing或prompt工程对此问题有所缓解,但缺乏严谨的解释和解决方案。本文揭示了现有基于score distillation的文本到3D生成框架退化为在每个视角上独立寻求最大似然,从而导致mode collapse问题,实际表现为Janus伪影。为了抑制mode collapse,本文通过在相应的变分目标中重新建立熵项来改进score distillation,该熵项应用于渲染图像的分布。最大化熵鼓励生成3D资产中不同视角的多样性,从而减轻Janus问题。基于此目标,本文推导出一种新的3D score distillation更新规则,称为Entropic Score Distillation (ESD)。理论上表明,ESD可以通过在变分score distillation上采用classifier-free guidance技巧来简化和实现。实验表明,ESD可以有效解决score distillation中的Janus伪影。

🔬 方法详解

问题定义:现有基于score distillation的文本到3D生成方法在生成3D模型时,容易出现“Janus”伪影,即模型在不同视角下都呈现出多个正面,导致视角不一致。这种现象源于模型在每个视角上独立地寻求最大似然,从而陷入mode collapse,忽略了3D模型整体的一致性约束。现有方法虽然通过score debiasing或prompt工程等经验方法有所缓解,但缺乏对该问题的深入理解和系统性解决方案。

核心思路:论文的核心思路是通过在score distillation的优化目标中引入熵项,鼓励生成图像在不同视角上的多样性。具体来说,通过最大化渲染图像分布的熵,使得模型在生成不同视角的图像时,不会过度集中于单一模式,从而避免mode collapse。这种方法可以有效地缓解Janus伪影,提高生成3D模型的一致性。

技术框架:ESD的核心在于修改了score distillation的优化目标。原始的score distillation目标函数旨在最小化生成图像与噪声图像之间的差异。ESD在此基础上增加了一个熵项,用于最大化渲染图像分布的熵。整体流程如下:1. 从文本提示生成多个视角的渲染图像;2. 计算渲染图像的score;3. 根据修改后的目标函数,更新3D模型的参数。该框架与现有的score distillation框架兼容,易于集成。

关键创新:论文的关键创新在于将信息论中的熵的概念引入到score distillation中,从而有效地解决了文本到3D生成中的mode collapse问题。与现有方法相比,ESD提供了一种更理论化的视角来理解Janus伪影,并提出了一种更系统性的解决方案。此外,ESD的实现方式非常简单,只需在现有的score distillation框架上添加一个熵项即可。

关键设计:ESD的关键设计在于熵项的引入和classifier-free guidance的应用。论文证明,通过在变分score distillation上应用classifier-free guidance,可以简化ESD的实现。具体来说,可以通过调整classifier-free guidance的权重来控制熵项的强度,从而平衡生成图像的质量和多样性。此外,论文还对熵项的具体形式进行了选择,最终选择了一种易于计算和优化的形式。

📊 实验亮点

实验结果表明,ESD能够显著减轻文本到3D生成中的Janus伪影,提高生成3D模型的一致性。通过与现有方法的对比,证明了ESD的有效性。值得注意的是,ESD的实现方式非常简单,只需在现有的score distillation框架上应用classifier-free guidance即可,具有很强的实用价值。

🎯 应用场景

该研究成果可应用于各种3D内容创作领域,例如游戏开发、虚拟现实、产品设计等。通过文本描述即可快速生成高质量的3D模型,降低了3D建模的门槛,提高了创作效率。未来,该技术有望进一步发展,实现更精细、更逼真的3D内容生成,并与其他AI技术相结合,拓展更多应用场景。

📄 摘要(原文)

Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing the entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.