Bridging Geometry-Coherent Text-to-3D Generation with Multi-View Diffusion Priors and Gaussian Splatting

作者: Feng Yang, Wenliang Qian, Wangmeng Zuo, Hui Li

分类: cs.CV

发布日期: 2025-05-07 (更新: 2025-12-20)

备注: Accepted by Neural Networks. The final published version is available at https://doi.org/10.1016/j.neunet.2025.108511

DOI: 10.1016/j.neunet.2025.108511

💡 一句话要点

提出耦合分数蒸馏（CSD）框架，解决文本到3D生成中的几何一致性问题，并优化3D高斯溅射。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 文本到3D生成 几何一致性 多视角学习 扩散模型 高斯溅射

📋 核心要点

现有文本到3D生成方法忽略多视角相关性，导致生成结果几何不一致，出现多面伪影。
提出耦合分数蒸馏（CSD）框架，通过耦合多视角联合分布先验，保证3D生成的几何一致性。
实验结果表明，该方法能够高效生成高质量的3D内容，并在定量和定性上都具有竞争力。

📝 摘要（中文）

本文提出了一种名为耦合分数蒸馏（CSD）的框架，旨在解决文本到3D生成中几何不一致和多面伪影的问题。现有方法如分数蒸馏采样（SDS）利用预训练的2D扩散模型，但忽略了多视角相关性。CSD通过耦合多视角联合分布先验，确保生成3D内容的几何一致性，并实现3D高斯溅射的稳定和直接优化。具体而言，通过将优化问题重新定义为多视角联合优化问题，推导出有效的优化规则，耦合多视角先验以指导跨不同视角的优化，同时保持生成3D资产的多样性。此外，本文还提出了一种直接使用随机初始化的3D高斯溅射（3D-GS）进行优化的框架，以生成几何一致的3D内容。最后，采用从3D-GS初始化的可变形四面体网格，并通过CSD进行细化，以生成高质量的精细网格。定量和定性实验结果表明了该方法的效率和具有竞争力的质量。

🔬 方法详解

问题定义：现有基于分数蒸馏采样（SDS）的文本到3D生成方法，虽然利用了预训练的2D扩散模型，但忽略了多视角之间的一致性约束，导致生成的3D模型存在几何不一致性，例如出现多个面或者不自然的形变。这些方法难以保证不同视角下生成内容的连贯性，影响了3D模型的质量和可用性。

核心思路：本文的核心思路是将3D生成问题视为一个多视角联合优化问题。通过耦合不同视角的先验知识，强制模型在生成3D内容时保持几何一致性。具体来说，利用多视角联合分布先验来指导优化过程，使得从不同视角观察到的3D模型在几何上是协调一致的。这种方法旨在克服传统SDS方法中由于缺乏多视角约束而导致的几何伪影。

技术框架：整个框架包括以下几个主要步骤：1) 使用随机初始化3D高斯溅射（3D-GS）表示3D场景。2) 通过耦合分数蒸馏（CSD）优化3D-GS，利用多视角扩散先验指导优化，保证几何一致性。3) 从优化后的3D-GS初始化一个可变形四面体网格。4) 通过CSD进一步细化该网格，生成高质量的精细网格模型。该框架的核心在于CSD优化过程，它将多视角信息融合到优化循环中，从而生成几何一致的3D内容。

关键创新：该方法最重要的创新点在于提出了耦合分数蒸馏（CSD）的概念，它将多视角信息显式地融入到分数蒸馏采样过程中。与传统的SDS方法只关注单个视角的优化不同，CSD通过耦合多视角联合分布先验，实现了跨视角的协同优化，从而显著提高了生成3D模型的几何一致性。此外，直接优化3D高斯溅射也避免了中间表示转换带来的信息损失。

关键设计：CSD的关键设计包括：1) 将优化问题形式化为多视角联合优化问题，推导出有效的优化规则。2) 使用预训练的2D扩散模型作为多视角先验，指导3D-GS的优化。3) 利用可变形四面体网格进行精细化，提高模型细节。损失函数的设计需要平衡多视角一致性和生成内容的多样性。具体的参数设置和网络结构细节在论文中应该有更详细的描述（未知）。

📊 实验亮点

实验结果表明，该方法在文本到3D生成任务中表现出优异的性能。与现有方法相比，该方法生成的3D模型具有更高的几何一致性和更少的伪影。定量和定性结果均表明，该方法在生成质量上具有竞争力，并且能够高效地优化3D高斯溅射。

🎯 应用场景

该研究成果可广泛应用于游戏开发、虚拟现实、增强现实、3D内容创作等领域。通过文本描述快速生成高质量、几何一致的3D模型，可以大幅降低3D建模的成本和门槛，加速相关产业的发展。未来，该技术有望应用于自动化设计、个性化定制等更广泛的场景。

📄 摘要（原文）

Score Distillation Sampling (SDS) leverages pretrained 2D diffusion models to advance text-to-3D generation but neglects multi-view correlations, being prone to geometric inconsistencies and multi-face artifacts in the generated 3D content. In this work, we propose Coupled Score Distillation (CSD), a framework that couples multi-view joint distribution priors to ensure geometrically consistent 3D generation while enabling the stable and direct optimization of 3D Gaussian Splatting. Specifically, by reformulating the optimization as a multi-view joint optimization problem, we derive an effective optimization rule that effectively couples multi-view priors to guide optimization across different viewpoints while preserving the diversity of generated 3D assets. Additionally, we propose a framework that directly optimizes 3D Gaussian Splatting (3D-GS) with random initialization to generate geometrically consistent 3D content. We further employ a deformable tetrahedral grid, initialized from 3D-GS and refined through CSD, to produce high-quality, refined meshes. Quantitative and qualitative experimental results demonstrate the efficiency and competitive quality of our approach.

Bridging Geometry-Coherent Text-to-3D Generation with Multi-View Diffusion Priors and Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理