Personalize Your Gaussian: Consistent 3D Scene Personalization from a Single Image

📄 arXiv: 2505.14537v3 📥 PDF

作者: Yuxuan Wang, Xuanyu Yi, Qingshan Xu, Yuan Zhou, Long Chen, Hanwang Zhang

分类: cs.CV

发布日期: 2025-05-20 (更新: 2025-12-24)

备注: 18 pages


💡 一句话要点

提出CP-GS框架,解决单图个性化3D场景生成中的视角偏差问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景个性化 单图重建 视角一致性 高斯溅射 LoRA微调

📋 核心要点

  1. 单图个性化3D场景生成面临视角偏差挑战,导致多视角一致性和参考一致性难以同时保证。
  2. CP-GS框架通过迭代LoRA微调和视角一致生成,将单视角参考外观逐步传播到新视角。
  3. 实验表明,CP-GS能有效缓解视角偏差,在个性化质量上显著优于现有方法。

📝 摘要(中文)

本文提出了一种名为Consistent Personalization for 3D Gaussian Splatting (CP-GS)的框架,旨在解决从单张参考图像个性化3D场景时,由于视角偏差导致的多视角一致性和参考一致性难以兼顾的问题。现有基于图像条件的3DGS个性化方法缺乏有效扩展参考信息的机制,容易受到视角偏差的影响。CP-GS通过集成预训练的图像到3D生成模型和迭代LoRA微调,提取并扩展参考外观,并通过几何线索引导的视角一致生成过程,生成忠实的多视角引导图像和个性化的3DGS输出。在真实场景上的大量实验表明,CP-GS能有效缓解视角偏差,实现高质量的个性化,显著优于现有方法。

🔬 方法详解

问题定义:论文旨在解决从单张图像个性化3D场景时,由于单视角信息有限导致的视角偏差问题。现有方法难以在保持与参考图像一致性的同时,保证生成结果在不同视角下的一致性,即多视角一致性问题。现有方法缺乏有效扩展参考信息到其他视角的机制,容易产生不自然的几何结构和纹理。

核心思路:CP-GS的核心思路是逐步将单视角参考图像的外观信息传播到新的视角。通过预训练的图像到3D生成模型提取初始的3D信息,然后利用迭代的LoRA微调来优化外观,并结合几何线索引导视角一致的生成过程,从而缓解视角偏差,保证多视角一致性。

技术框架:CP-GS框架主要包含以下几个阶段:1) 利用预训练的图像到3D生成模型,从单张参考图像生成初始的3D场景表示。2) 使用LoRA进行迭代微调,优化3D场景的外观,使其更接近参考图像。3) 通过几何线索引导的视角一致生成过程,生成多视角的引导图像。4) 基于生成的引导图像,个性化3DGS输出。

关键创新:CP-GS的关键创新在于:1) 提出了一个迭代的LoRA微调策略,能够有效地将单视角参考图像的外观信息传播到新的视角。2) 利用几何线索引导视角一致的生成过程,从而保证生成结果在不同视角下的一致性。3) 将预训练的图像到3D生成模型与LoRA微调相结合,充分利用了预训练模型的先验知识,提高了生成质量。

关键设计:CP-GS的关键设计包括:1) LoRA微调的迭代次数和学习率的设置,需要根据具体场景进行调整。2) 几何线索的选择,例如深度信息或法线信息,用于引导视角一致的生成过程。3) 损失函数的设计,需要同时考虑参考一致性和多视角一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CP-GS在真实场景上的实验结果表明,该方法能够有效缓解视角偏差,实现高质量的个性化3D场景生成,显著优于现有方法。具体来说,CP-GS在多视角一致性和参考一致性方面均取得了明显的提升,生成的3D场景更加逼真和自然。实验结果表明,CP-GS能够更好地保留参考图像的细节信息,并在不同视角下保持一致的外观。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发等领域,用户可以通过单张照片快速生成个性化的3D场景,例如将自己的宠物、房屋等物体快速导入到虚拟环境中。该技术还可以用于3D内容创作,降低3D建模的门槛,提高创作效率。未来,该技术有望应用于电商领域,实现商品的3D展示和个性化定制。

📄 摘要(原文)

Personalizing 3D scenes from a single reference image enables intuitive user-guided editing, which requires achieving both multi-view consistency across perspectives and referential consistency with the input image. However, these goals are particularly challenging due to the viewpoint bias caused by the limited perspective provided in a single image. Lacking the mechanisms to effectively expand reference information beyond the original view, existing methods of image-conditioned 3DGS personalization often suffer from this viewpoint bias and struggle to produce consistent results. Therefore, in this paper, we present Consistent Personalization for 3D Gaussian Splatting (CP-GS), a framework that progressively propagates the single-view reference appearance to novel perspectives. In particular, CP-GS integrates pre-trained image-to-3D generation and iterative LoRA fine-tuning to extract and extend the reference appearance, and finally produces faithful multi-view guidance images and the personalized 3DGS outputs through a view-consistent generation process guided by geometric cues. Extensive experiments on real-world scenes show that our CP-GS effectively mitigates the viewpoint bias, achieving high-quality personalization that significantly outperforms existing methods.