Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation

📄 arXiv: 2503.15975v1 📥 PDF

作者: Kendong Liu, Zhiyu Zhu, Hui Liu, Junhui Hou

分类: cs.CV

发布日期: 2025-03-20


💡 一句话要点

Acc3D:通过边缘一致性引导的Score蒸馏加速单图到3D扩散模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 单图到3D 扩散模型 知识蒸馏 边缘一致性 对抗学习 3D重建 生成模型

📋 核心要点

  1. 现有单图到3D扩散模型计算成本高昂,推理速度慢,难以满足实际应用需求。
  2. Acc3D通过边缘一致性引导的Score蒸馏,在保证生成质量的同时,显著减少推理步骤。
  3. 实验表明,Acc3D在计算效率上提升超过20倍,并在生成质量上优于现有方法。

📝 摘要(中文)

Acc3D旨在解决从单张图像生成3D模型的扩散过程加速问题。为了通过少量步骤的推理获得高质量的重建结果,我们强调了在随机噪声状态下正则化score函数学习的关键问题。为此,我们提出了边缘一致性,即在高信噪比区域保持预测的一致性,以增强预训练的扩散模型,从而实现基于蒸馏的端点score函数优化。在此基础上,我们提出了一种对抗性增强策略,以进一步丰富生成细节并提高整体生成质量。这两个模块相互补充,相互促进,从而提升生成性能。大量实验表明,与最先进的方法相比,我们的Acc3D不仅实现了超过20倍的计算效率提升,而且显著提高了生成质量。

🔬 方法详解

问题定义:论文旨在解决单张图像到3D模型生成任务中,基于扩散模型的生成速度过慢的问题。现有的扩散模型需要大量的迭代步骤才能生成高质量的3D模型,这限制了其在实际应用中的可行性。

核心思路:论文的核心思路是通过知识蒸馏,将一个需要多次迭代的扩散模型压缩成一个只需要少量迭代步骤的扩散模型。为了保证蒸馏后的模型仍然能够生成高质量的3D模型,论文提出了边缘一致性约束,以正则化score函数的学习。

技术框架:Acc3D包含两个主要模块:边缘一致性引导的Score蒸馏和对抗性增强策略。首先,利用边缘一致性来增强预训练的扩散模型,并通过蒸馏得到一个高效的扩散模型。然后,使用对抗性增强策略来进一步提升生成细节和整体质量。这两个模块相互配合,共同提升生成性能。

关键创新:该论文的关键创新在于提出了边缘一致性引导的Score蒸馏方法。边缘一致性是指在高信噪比区域保持预测的一致性,这有助于正则化score函数的学习,从而提高蒸馏后模型的生成质量。此外,对抗性增强策略也进一步提升了生成细节。

关键设计:边缘一致性通过在高信噪比区域对score函数进行约束来实现。对抗性增强策略的具体实现细节未知,但推测可能使用了判别器来区分生成的3D模型和真实3D模型,从而引导生成器生成更逼真的3D模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Acc3D在实验中实现了超过20倍的计算效率提升,同时在生成质量上优于现有方法。这意味着Acc3D能够在更短的时间内生成更高质量的3D模型。具体的性能指标和对比基线未知,但整体提升显著。

🎯 应用场景

Acc3D具有广泛的应用前景,例如在游戏开发中,可以快速生成游戏角色或场景的3D模型;在电商领域,可以根据商品图片快速生成3D展示模型;在虚拟现实和增强现实应用中,可以用于快速构建3D环境。该研究能够显著降低3D内容生成的成本和时间,加速相关产业的发展。

📄 摘要(原文)

We present Acc3D to tackle the challenge of accelerating the diffusion process to generate 3D models from single images. To derive high-quality reconstructions through few-step inferences, we emphasize the critical issue of regularizing the learning of score function in states of random noise. To this end, we propose edge consistency, i.e., consistent predictions across the high signal-to-noise ratio region, to enhance a pre-trained diffusion model, enabling a distillation-based refinement of the endpoint score function. Building on those distilled diffusion models, we propose an adversarial augmentation strategy to further enrich the generation detail and boost overall generation quality. The two modules complement each other, mutually reinforcing to elevate generative performance. Extensive experiments demonstrate that our Acc3D not only achieves over a $20\times$ increase in computational efficiency but also yields notable quality improvements, compared to the state-of-the-arts.