ConsistentDreamer: View-Consistent Meshes Through Balanced Multi-View Gaussian Optimization
作者: Onat Şahin, Mohammad Altillawi, George Eskandar, Carlos Carbone, Ziyuan Liu
分类: cs.CV
发布日期: 2025-02-13 (更新: 2025-02-25)
备注: Manuscript accepted by Pattern Recognition Letters. Project Page: https://onatsahin.github.io/ConsistentDreamer/
期刊: Pattern Recognition Letters 190 (2025), 118-125
DOI: 10.1016/j.patrec.2025.02.016
💡 一句话要点
ConsistentDreamer:通过平衡多视角高斯优化实现视角一致的网格模型生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D生成 扩散模型 视角一致性 分数蒸馏采样 多视角学习
📋 核心要点
- 现有图像到3D方法在视角一致性方面存在不足,限制了其在具身AI模拟等领域的应用。
- ConsistentDreamer通过生成多视角先验图像,并使用分数蒸馏采样损失来约束视角间差异,从而保证视角一致性。
- 该方法引入动态任务相关权重来平衡粗略形状和精细细节优化,并使用多种损失函数来细化网格表面。
📝 摘要(中文)
扩散模型在3D生成方面取得了显著进展,使得从图像生成的资产能够用于具身AI模拟。然而,图像到3D问题的一对多特性限制了其应用,因为不同视角的内容和质量不一致。以往的模型通过从视角条件扩散先验中采样视角来优化3D模型,但扩散模型无法保证视角一致性。为此,我们提出了ConsistentDreamer,首先生成一组固定的多视角先验图像,并通过分数蒸馏采样(SDS)损失,利用另一个扩散模型在它们之间采样随机视角。这样,我们限制了由SDS损失引导的视角之间的差异,并确保一致的粗略形状。在每次迭代中,我们还使用生成的多视角先验图像进行精细细节重建。为了平衡粗略形状和精细细节优化,我们引入了基于同方差不确定性的动态任务相关权重,并在每次迭代中自动更新。此外,我们采用不透明度、深度扭曲和法线对齐损失来细化用于网格提取的表面。我们的方法确保了比现有技术更好的视角一致性和视觉质量。
🔬 方法详解
问题定义:现有的图像到3D生成方法,特别是基于扩散模型的方法,在生成3D模型时,不同视角之间的一致性难以保证。由于扩散模型本身的一对多特性,从不同视角生成的图像可能包含不一致的内容和质量,这限制了它们在需要视角一致性的应用场景中的使用,例如具身AI模拟。
核心思路:ConsistentDreamer的核心思路是首先生成一组固定的多视角先验图像,然后通过分数蒸馏采样(SDS)损失来约束在这些先验视角之间采样的随机视角。通过这种方式,将视角之间的差异限制在一定范围内,从而保证生成3D模型的视角一致性。同时,利用生成的多视角先验图像进行精细细节重建,以提高生成模型的视觉质量。
技术框架:ConsistentDreamer的整体框架包含以下几个主要阶段:1) 多视角先验图像生成:使用扩散模型生成一组固定视角的图像作为先验信息。2) 随机视角采样与约束:使用另一个扩散模型在先验视角之间采样随机视角,并通过SDS损失约束这些随机视角与先验视角的一致性。3) 精细细节重建:利用生成的多视角先验图像进行精细细节重建,以提高生成模型的视觉质量。4) 网格表面优化:采用不透明度、深度扭曲和法线对齐损失来细化用于网格提取的表面。
关键创新:ConsistentDreamer的关键创新在于:1) 多视角先验约束:通过生成多视角先验图像并使用SDS损失进行约束,有效地提高了生成3D模型的视角一致性。2) 动态任务相关权重:引入基于同方差不确定性的动态任务相关权重,平衡了粗略形状和精细细节优化,从而提高了生成模型的整体质量。
关键设计:ConsistentDreamer的关键设计包括:1) SDS损失:使用SDS损失来约束随机采样视角与多视角先验图像之间的一致性。2) 动态权重:基于同方差不确定性自动调整粗略形状和精细细节重建的权重。3) 表面优化损失:使用不透明度、深度扭曲和法线对齐损失来细化网格表面,提高几何质量。
🖼️ 关键图片
📊 实验亮点
ConsistentDreamer在视角一致性和视觉质量方面均优于现有技术。实验结果表明,该方法能够生成具有更高视角一致性的3D模型,并且在视觉质量方面也取得了显著提升。通过与其他state-of-the-art方法进行对比,ConsistentDreamer在多个指标上均取得了更好的性能。
🎯 应用场景
ConsistentDreamer生成的视角一致的3D模型可广泛应用于具身AI模拟、游戏开发、虚拟现实/增强现实等领域。该方法能够生成高质量、视角一致的3D资产,从而提高模拟环境的真实感和交互性,降低3D内容制作的成本和难度,并为用户提供更沉浸式的体验。未来,该技术有望进一步扩展到其他3D生成任务,例如场景生成、动画生成等。
📄 摘要(原文)
Recent advances in diffusion models have significantly improved 3D generation, enabling the use of assets generated from an image for embodied AI simulations. However, the one-to-many nature of the image-to-3D problem limits their use due to inconsistent content and quality across views. Previous models optimize a 3D model by sampling views from a view-conditioned diffusion prior, but diffusion models cannot guarantee view consistency. Instead, we present ConsistentDreamer, where we first generate a set of fixed multi-view prior images and sample random views between them with another diffusion model through a score distillation sampling (SDS) loss. Thereby, we limit the discrepancies between the views guided by the SDS loss and ensure a consistent rough shape. In each iteration, we also use our generated multi-view prior images for fine-detail reconstruction. To balance between the rough shape and the fine-detail optimizations, we introduce dynamic task-dependent weights based on homoscedastic uncertainty, updated automatically in each iteration. Additionally, we employ opacity, depth distortion, and normal alignment losses to refine the surface for mesh extraction. Our method ensures better view consistency and visual quality compared to the state-of-the-art.