Bridging Geometry-Coherent Text-to-3D Generation with Multi-View Diffusion Priors and Gaussian Splatting

📄 arXiv: 2505.04262v2 📥 PDF

作者: Feng Yang, Wenliang Qian, Wangmeng Zuo, Hui Li

分类: cs.CV

发布日期: 2025-05-07 (更新: 2025-12-20)

备注: Accepted by Neural Networks. The final published version is available at https://doi.org/10.1016/j.neunet.2025.108511

DOI: 10.1016/j.neunet.2025.108511


💡 一句话要点

提出耦合分数蒸馏(CSD)框架,解决文本到3D生成中的几何一致性问题,并优化3D高斯溅射。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 文本到3D生成 几何一致性 多视角学习 扩散模型 高斯溅射

📋 核心要点

  1. 现有文本到3D生成方法忽略多视角相关性,导致生成结果几何不一致,出现多面伪影。
  2. 提出耦合分数蒸馏(CSD)框架,通过耦合多视角联合分布先验,保证3D生成的几何一致性。
  3. 实验结果表明,该方法能够高效生成高质量的3D内容,并在定量和定性上都具有竞争力。

📝 摘要(中文)

本文提出了一种名为耦合分数蒸馏(CSD)的框架,旨在解决文本到3D生成中几何不一致和多面伪影的问题。现有方法如分数蒸馏采样(SDS)利用预训练的2D扩散模型,但忽略了多视角相关性。CSD通过耦合多视角联合分布先验,确保生成3D内容的几何一致性,并实现3D高斯溅射的稳定和直接优化。具体而言,通过将优化问题重新定义为多视角联合优化问题,推导出有效的优化规则,耦合多视角先验以指导跨不同视角的优化,同时保持生成3D资产的多样性。此外,本文还提出了一种直接使用随机初始化的3D高斯溅射(3D-GS)进行优化的框架,以生成几何一致的3D内容。最后,采用从3D-GS初始化的可变形四面体网格,并通过CSD进行细化,以生成高质量的精细网格。定量和定性实验结果表明了该方法的效率和具有竞争力的质量。

🔬 方法详解

问题定义:现有基于分数蒸馏采样(SDS)的文本到3D生成方法,虽然利用了预训练的2D扩散模型,但忽略了多视角之间的一致性约束,导致生成的3D模型存在几何不一致性,例如出现多个面或者不自然的形变。这些方法难以保证不同视角下生成内容的连贯性,影响了3D模型的质量和可用性。

核心思路:本文的核心思路是将3D生成问题视为一个多视角联合优化问题。通过耦合不同视角的先验知识,强制模型在生成3D内容时保持几何一致性。具体来说,利用多视角联合分布先验来指导优化过程,使得从不同视角观察到的3D模型在几何上是协调一致的。这种方法旨在克服传统SDS方法中由于缺乏多视角约束而导致的几何伪影。

技术框架:整个框架包括以下几个主要步骤:1) 使用随机初始化3D高斯溅射(3D-GS)表示3D场景。2) 通过耦合分数蒸馏(CSD)优化3D-GS,利用多视角扩散先验指导优化,保证几何一致性。3) 从优化后的3D-GS初始化一个可变形四面体网格。4) 通过CSD进一步细化该网格,生成高质量的精细网格模型。该框架的核心在于CSD优化过程,它将多视角信息融合到优化循环中,从而生成几何一致的3D内容。

关键创新:该方法最重要的创新点在于提出了耦合分数蒸馏(CSD)的概念,它将多视角信息显式地融入到分数蒸馏采样过程中。与传统的SDS方法只关注单个视角的优化不同,CSD通过耦合多视角联合分布先验,实现了跨视角的协同优化,从而显著提高了生成3D模型的几何一致性。此外,直接优化3D高斯溅射也避免了中间表示转换带来的信息损失。

关键设计:CSD的关键设计包括:1) 将优化问题形式化为多视角联合优化问题,推导出有效的优化规则。2) 使用预训练的2D扩散模型作为多视角先验,指导3D-GS的优化。3) 利用可变形四面体网格进行精细化,提高模型细节。损失函数的设计需要平衡多视角一致性和生成内容的多样性。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

📊 实验亮点

实验结果表明,该方法在文本到3D生成任务中表现出优异的性能。与现有方法相比,该方法生成的3D模型具有更高的几何一致性和更少的伪影。定量和定性结果均表明,该方法在生成质量上具有竞争力,并且能够高效地优化3D高斯溅射。

🎯 应用场景

该研究成果可广泛应用于游戏开发、虚拟现实、增强现实、3D内容创作等领域。通过文本描述快速生成高质量、几何一致的3D模型,可以大幅降低3D建模的成本和门槛,加速相关产业的发展。未来,该技术有望应用于自动化设计、个性化定制等更广泛的场景。

📄 摘要(原文)

Score Distillation Sampling (SDS) leverages pretrained 2D diffusion models to advance text-to-3D generation but neglects multi-view correlations, being prone to geometric inconsistencies and multi-face artifacts in the generated 3D content. In this work, we propose Coupled Score Distillation (CSD), a framework that couples multi-view joint distribution priors to ensure geometrically consistent 3D generation while enabling the stable and direct optimization of 3D Gaussian Splatting. Specifically, by reformulating the optimization as a multi-view joint optimization problem, we derive an effective optimization rule that effectively couples multi-view priors to guide optimization across different viewpoints while preserving the diversity of generated 3D assets. Additionally, we propose a framework that directly optimizes 3D Gaussian Splatting (3D-GS) with random initialization to generate geometrically consistent 3D content. We further employ a deformable tetrahedral grid, initialized from 3D-GS and refined through CSD, to produce high-quality, refined meshes. Quantitative and qualitative experimental results demonstrate the efficiency and competitive quality of our approach.