RecDreamer: Consistent Text-to-3D Generation via Uniform Score Distillation

📄 arXiv: 2502.12640v1 📥 PDF

作者: Chenxi Zheng, Yihong Lin, Bangzhen Liu, Xuemiao Xu, Yongwei Nie, Shengfeng He

分类: cs.CV

发布日期: 2025-02-18


💡 一句话要点

RecDreamer通过均匀分数蒸馏解决文本到3D生成中的多面Janus问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本到3D生成 多面Janus问题 分数蒸馏 姿态一致性 均匀分布

📋 核心要点

  1. 现有文本到3D生成方法存在多面Janus问题,即不同视角下3D模型出现重复图案,源于姿态一致性难以保证。
  2. RecDreamer通过校正先验分布,使姿态变化均匀分布,从而消除对规范姿态的偏见,实现更一致的姿态表示。
  3. RecDreamer引入免训练分类器估计姿态,并采用近似技术处理噪声,实验表明能有效缓解多面Janus问题。

📝 摘要(中文)

当前基于分数蒸馏的文本到3D生成方法常常遭受几何不一致性的困扰,导致3D资产在不同姿态下出现重复的模式。这个问题被称为多面Janus问题,源于现有方法难以在不同姿态之间保持一致性,并且偏向于规范姿态。为了解决这个问题,我们提出了RecDreamer,它重塑了底层数据分布,以实现更一致的姿态表示。我们方法的核心思想是校正先验分布,确保姿态变化均匀分布,而不是偏向于规范形式。通过修改处方分布,我们可以重建分布的密度,以确保符合特定的边缘约束。特别是,我们确保姿态的边缘分布遵循均匀分布,从而消除先验知识引入的偏差。我们将这种校正后的数据分布整合到现有的分数蒸馏算法中,这个过程我们称之为均匀分数蒸馏。为了有效计算辅助函数所需的后验分布,RecDreamer引入了一个免训练的分类器,以即插即用的方式估计姿态类别。此外,我们利用各种近似技术来处理噪声状态,显著提高了系统性能。实验结果表明,RecDreamer有效地缓解了多面Janus问题,从而在不同姿态下生成更一致的3D资产。

🔬 方法详解

问题定义:论文旨在解决文本到3D生成中由于姿态不一致导致的多面Janus问题。现有方法偏向于规范姿态,导致生成的3D模型在不同视角下出现重复的几何结构,缺乏真实感和多样性。现有方法难以维持跨视角的一致性是其主要痛点。

核心思路:RecDreamer的核心思路是通过重塑数据分布来校正姿态的先验分布。具体来说,它试图使姿态的边缘分布服从均匀分布,从而消除模型对特定姿态的偏见。通过这种方式,模型在生成3D资产时能够更好地考虑不同姿态,从而提高一致性。

技术框架:RecDreamer主要包含以下几个阶段:首先,利用一个免训练的分类器估计3D模型的姿态类别。然后,基于估计的姿态类别,通过一个辅助函数来修改先验分布,使其更接近均匀分布。接下来,将校正后的数据分布整合到分数蒸馏算法中,进行3D模型的生成。最后,利用近似技术处理噪声状态,提高生成质量和效率。

关键创新:RecDreamer的关键创新在于提出了均匀分数蒸馏的概念,通过校正先验分布来解决多面Janus问题。与现有方法不同,RecDreamer不是直接优化3D模型的几何结构,而是从数据分布的角度入手,消除姿态偏差。此外,免训练分类器的使用也降低了计算成本。

关键设计:RecDreamer的关键设计包括:1) 免训练姿态分类器的具体实现方式,例如基于预训练模型的特征提取和分类;2) 辅助函数的选择,如何根据姿态类别调整先验分布;3) 分数蒸馏算法的具体实现,以及如何将校正后的数据分布融入其中;4) 近似技术的选择,例如降低计算复杂度的采样方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RecDreamer通过均匀分数蒸馏,有效缓解了文本到3D生成中的多面Janus问题,显著提高了3D模型在不同姿态下的一致性。实验结果表明,RecDreamer生成的3D资产在视觉质量和几何一致性方面均优于现有方法。虽然论文中没有给出具体的量化指标,但强调了在视觉效果上的显著提升。

🎯 应用场景

RecDreamer可应用于游戏开发、虚拟现实、增强现实、电影制作等领域,能够根据文本描述快速生成高质量、姿态一致的3D模型。该技术降低了3D内容创作的门槛,提高了生产效率,并为用户提供了更丰富的创作可能性。未来,该技术有望进一步发展,实现更精细、更逼真的3D内容生成。

📄 摘要(原文)

Current text-to-3D generation methods based on score distillation often suffer from geometric inconsistencies, leading to repeated patterns across different poses of 3D assets. This issue, known as the Multi-Face Janus problem, arises because existing methods struggle to maintain consistency across varying poses and are biased toward a canonical pose. While recent work has improved pose control and approximation, these efforts are still limited by this inherent bias, which skews the guidance during generation. To address this, we propose a solution called RecDreamer, which reshapes the underlying data distribution to achieve a more consistent pose representation. The core idea behind our method is to rectify the prior distribution, ensuring that pose variation is uniformly distributed rather than biased toward a canonical form. By modifying the prescribed distribution through an auxiliary function, we can reconstruct the density of the distribution to ensure compliance with specific marginal constraints. In particular, we ensure that the marginal distribution of poses follows a uniform distribution, thereby eliminating the biases introduced by the prior knowledge. We incorporate this rectified data distribution into existing score distillation algorithms, a process we refer to as uniform score distillation. To efficiently compute the posterior distribution required for the auxiliary function, RecDreamer introduces a training-free classifier that estimates pose categories in a plug-and-play manner. Additionally, we utilize various approximation techniques for noisy states, significantly improving system performance. Our experimental results demonstrate that RecDreamer effectively mitigates the Multi-Face Janus problem, leading to more consistent 3D asset generation across different poses.