From Part to Whole: 3D Generative World Model with an Adaptive Structural Hierarchy
作者: Bi'an Du, Daizong Liu, Pufan Li, Wei Hu
分类: cs.CV
发布日期: 2026-03-23
备注: Accepted to ICME 2026
💡 一句话要点
提出自适应结构层次的3D生成世界模型,解决单图3D生成中结构复杂性和泛化性问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 单图3D生成 部件-整体层次结构 自适应槽发现 槽门控机制 原型库 扩散模型 跨类别泛化
📋 核心要点
- 现有单图3D生成方法难以在稀疏监督下,跨越多样语义类别和高度可变的结构复杂性实现可靠的泛化。
- 提出一种自适应部件-整体层次结构的3D生成模型,通过软组合mask自主发现潜在结构槽,并利用槽门控机制动态调整。
- 实验表明,该模型在跨类别迁移和部件数量外推方面取得了显著提升,验证了原型库和槽门控机制的有效性。
📝 摘要(中文)
单图3D生成是现实世界中视觉到图形模型的关键。然而,在稀疏监督下,跨越多样语义类别和高度可变的结构复杂性实现可靠的泛化仍然是一个根本挑战。现有方法通常以单体方式建模对象,或依赖于固定数量的部件,包括最近的部件感知模型如PartCrafter,仍然需要人工指定部件数量。这种设计容易导致过拟合、结构组件碎片化或缺失,以及在遇到新的对象布局时组合泛化能力有限。为此,本文将单图3D生成重新思考为在灵活的3D潜在空间中学习自适应的部件-整体层次结构。我们提出了一种新颖的部件到整体的3D生成世界模型,该模型通过直接从图像tokens推断软组合mask来自主发现潜在的结构槽。具体来说,一种自适应槽门控机制动态地确定槽的激活概率,并平滑地整合不同对象中的冗余槽,确保涌现的结构在类别之间保持紧凑且富有表现力。然后,将每个提取的槽与可学习的、类别无关的原型库对齐,从而通过现实世界中的通用几何原型实现强大的跨类别形状共享和去噪。此外,引入了一个轻量级的3D去噪器,通过统一的扩散目标重建几何形状和外观。实验表明,在跨类别迁移和部件数量外推方面取得了持续的收益,并且消融实验证实了原型库对于形状先验共享以及槽门控对于结构适应的互补优势。
🔬 方法详解
问题定义:现有单图3D生成方法,如基于单体建模或固定部件数量的模型,在处理复杂结构和进行跨类别泛化时存在局限性。它们容易过拟合,导致结构组件缺失或碎片化,且难以适应新的对象布局。PartCrafter等部件感知模型虽然有所改进,但仍需人工指定部件数量,限制了其自动化和泛化能力。
核心思路:论文的核心思路是将单图3D生成问题转化为学习自适应的部件-整体层次结构。通过自主发现潜在的结构槽,并利用槽门控机制动态调整槽的激活状态,模型能够灵活地适应不同对象的结构复杂性,从而提高泛化能力。同时,引入类别无关的原型库,实现跨类别的形状共享和去噪。
技术框架:该模型包含以下主要模块:1)图像编码器,用于提取图像tokens;2)自适应槽发现模块,通过软组合mask从图像tokens中推断潜在的结构槽;3)槽门控机制,动态确定槽的激活概率,整合冗余槽;4)原型库,存储类别无关的几何原型,用于形状共享和去噪;5)3D去噪器,通过扩散目标重建几何形状和外观。整体流程是从图像到结构槽的发现,再到基于原型库的形状优化和最终的3D重建。
关键创新:该论文的关键创新在于:1)提出了自适应的部件-整体层次结构,能够自主发现潜在的结构槽,无需人工指定部件数量;2)引入了槽门控机制,动态调整槽的激活状态,有效整合冗余槽,提高模型的鲁棒性;3)构建了类别无关的原型库,实现跨类别的形状共享和去噪,增强了模型的泛化能力。与现有方法相比,该模型更加灵活、自动化,且具有更强的泛化能力。
关键设计:自适应槽发现模块使用Transformer架构,通过注意力机制学习软组合mask。槽门控机制使用sigmoid函数计算槽的激活概率,并引入温度参数控制激活的平滑程度。原型库包含一组可学习的几何原型,通过最近邻查找将结构槽与原型对齐。3D去噪器使用扩散模型,通过逐步去噪的方式重建几何形状和外观。损失函数包括重建损失、槽激活损失和原型对齐损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该模型在跨类别迁移和部件数量外推方面取得了显著提升。例如,在ShapeNet数据集上,该模型在跨类别3D生成任务中取得了优于现有方法的性能。消融实验验证了原型库对于形状先验共享以及槽门控对于结构适应的互补优势,证明了各个模块的有效性。
🎯 应用场景
该研究成果可应用于自动3D内容生成、虚拟现实/增强现实、机器人视觉、游戏开发等领域。例如,可以根据单张图像自动生成高质量的3D模型,用于虚拟场景构建或机器人环境感知。该模型能够有效处理复杂结构和实现跨类别泛化,具有广泛的应用前景,并有望推动相关领域的发展。
📄 摘要(原文)
Single-image 3D generation lies at the core of vision-to-graphics models in the real world. However, it remains a fundamental challenge to achieve reliable generalization across diverse semantic categories and highly variable structural complexity under sparse supervision. Existing approaches typically model objects in a monolithic manner or rely on a fixed number of parts, including recent part-aware models such as PartCrafter, which still require a labor-intensive user-specified part count. Such designs easily lead to overfitting, fragmented or missing structural components, and limited compositional generalization when encountering novel object layouts. To this end, this paper rethinks single-image 3D generation as learning an adaptive part-whole hierarchy in the flexible 3D latent space. We present a novel part-to-whole 3D generative world model that autonomously discovers latent structural slots by inferring soft and compositional masks directly from image tokens. Specifically, an adaptive slot-gating mechanism dynamically determines the slot-wise activation probabilities and smoothly consolidates redundant slots within different objects, ensuring that the emergent structure remains compact yet expressive across categories. Each distilled slot is then aligned to a learnable, class-agnostic prototype bank, enabling powerful cross-category shape sharing and denoising through universal geometric prototypes in the real world. Furthermore, a lightweight 3D denoiser is introduced to reconstruct geometry and appearance via unified diffusion objectives. Experiments show consistent gains in cross-category transfer and part-count extrapolation, and ablations confirm complementary benefits of the prototype bank for shape-prior sharing as well as slot-gating for structural adaptation.