Advancing Text-to-3D Generation with Linearized Lookahead Variational Score Distillation
作者: Yu Lei, Bingde Liu, Qingsong Xie, Haonan Lu, Zhijie Deng
分类: cs.CV
发布日期: 2025-07-13
备注: Accepted by ICCV 2025
💡 一句话要点
提出线性化前瞻变分分数蒸馏(L²-VSD),提升文本到3D生成质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 文本到3D生成 分数蒸馏 变分推断 扩散模型 线性化 前瞻优化 LoRA 3D建模
📋 核心要点
- 现有基于分数蒸馏的文本到3D生成方法,如VSD,存在收敛速度慢和收敛性不稳定的问题。
- 通过调整LoRA和3D模型的优化顺序,使分数模型前瞻3D状态,并使用线性化变体避免过拟合,提出L²-VSD。
- 实验表明,L²-VSD在文本到3D生成任务中优于现有的基于分数蒸馏的方法,并且可以集成到其他VSD框架中。
📝 摘要(中文)
基于预训练2D扩散模型的分数蒸馏的文本到3D生成方法越来越受到关注,其中变分分数蒸馏(VSD)是一个显著的例子。VSD证明,通过引入一个额外的基于分数的模型来表征从3D模型渲染的图像分布,以校正蒸馏梯度,可以改进原始的分数蒸馏。尽管VSD具有理论基础,但在实践中,它可能面临收敛速度慢,有时甚至是不适定的收敛问题。本文深入研究了引入的分数模型和3D模型之间的相互作用,发现LoRA和3D分布在实际实现中存在不匹配问题。通过简单地调整它们的优化顺序可以提高生成质量。通过这样做,分数模型可以前瞻到当前的3D状态,从而产生更合理的校正。然而,朴素的前瞻VSD在实践中可能由于潜在的过拟合而导致不稳定的训练。为了解决这个问题,我们提出使用模型的线性化变体进行分数蒸馏,从而产生了线性化前瞻变分分数蒸馏($L^2$-VSD)。$L^2$-VSD可以利用现有深度学习库的前向模式自动微分功能高效地实现。大量的实验验证了$L^2$-VSD的有效性,揭示了其相对于先前基于分数蒸馏的方法的明显优势。我们还表明,我们的方法可以无缝地集成到任何其他基于VSD的文本到3D框架中。
🔬 方法详解
问题定义:现有基于分数蒸馏的文本到3D生成方法,例如VSD,在实际应用中存在收敛速度慢、收敛不稳定等问题。这是由于LoRA和3D模型分布不匹配导致的,使得分数模型无法提供准确的梯度校正,从而影响生成质量和训练稳定性。
核心思路:论文的核心思路是通过调整LoRA和3D模型的优化顺序,使分数模型能够“前瞻”当前的3D模型状态,从而提供更合理的梯度校正。同时,为了避免前瞻优化可能导致的过拟合问题,论文引入了线性化变分分数蒸馏,即L²-VSD。
技术框架:L²-VSD方法主要包含以下几个阶段:1) 初始化3D模型;2) 使用文本提示渲染多视角图像;3) 使用预训练的2D扩散模型计算分数;4) 使用LoRA模型对分数进行校正;5) 使用线性化变分分数蒸馏更新3D模型。整个框架通过迭代优化3D模型,使其生成的图像与文本提示相符。
关键创新:论文的关键创新在于提出了线性化前瞻变分分数蒸馏(L²-VSD)。与传统的VSD方法相比,L²-VSD通过调整优化顺序,使分数模型能够前瞻3D模型的状态,从而提供更准确的梯度校正。同时,使用线性化变体避免了前瞻优化可能导致的过拟合问题,提高了训练的稳定性。
关键设计:L²-VSD的关键设计包括:1) 调整LoRA和3D模型的优化顺序,使LoRA模型在前,3D模型在后;2) 使用模型的线性化变体进行分数蒸馏,避免过拟合;3) 利用现有深度学习库的前向模式自动微分功能高效地实现线性化过程。具体的损失函数和网络结构与原始的VSD方法类似,但优化策略有所不同。
🖼️ 关键图片
📊 实验亮点
实验结果表明,L²-VSD在文本到3D生成任务中明显优于现有的基于分数蒸馏的方法。具体而言,L²-VSD能够生成更清晰、更符合文本描述的3D模型,并且训练过程更加稳定。此外,该方法可以无缝地集成到其他基于VSD的文本到3D框架中,进一步提升生成效果。
🎯 应用场景
该研究成果可应用于各种文本驱动的3D内容生成场景,例如游戏资产生成、虚拟现实内容创作、产品设计等。通过提供高质量、高效率的文本到3D生成方法,可以降低3D内容创作的门槛,加速相关产业的发展,并为用户提供更加丰富和个性化的3D体验。
📄 摘要(原文)
Text-to-3D generation based on score distillation of pre-trained 2D diffusion models has gained increasing interest, with variational score distillation (VSD) as a remarkable example. VSD proves that vanilla score distillation can be improved by introducing an extra score-based model, which characterizes the distribution of images rendered from 3D models, to correct the distillation gradient. Despite the theoretical foundations, VSD, in practice, is likely to suffer from slow and sometimes ill-posed convergence. In this paper, we perform an in-depth investigation of the interplay between the introduced score model and the 3D model, and find that there exists a mismatching problem between LoRA and 3D distributions in practical implementation. We can simply adjust their optimization order to improve the generation quality. By doing so, the score model looks ahead to the current 3D state and hence yields more reasonable corrections. Nevertheless, naive lookahead VSD may suffer from unstable training in practice due to the potential over-fitting. To address this, we propose to use a linearized variant of the model for score distillation, giving rise to the Linearized Lookahead Variational Score Distillation ($L^2$-VSD). $L^2$-VSD can be realized efficiently with forward-mode autodiff functionalities of existing deep learning libraries. Extensive experiments validate the efficacy of $L^2$-VSD, revealing its clear superiority over prior score distillation-based methods. We also show that our method can be seamlessly incorporated into any other VSD-based text-to-3D framework.