CubePart: An Open-Vocabulary Part-Controllable 3D Generator
作者: Yiheng Zhu, Kangle Deng, Jean-Philippe Fauconnier, Inaki Navarro, Daiqing Li, Ava Pun, Yinan Zhang, Peiye Zhuang, Xiaoxia Sun, Maneesh Agrawala, Kiran Bhat, Tinghui Zhou
分类: cs.AI
发布日期: 2026-05-27
备注: SIGGRAPH 2026. Project Page: https://cubepart.github.io/
💡 一句话要点
CubePart:提出一种可控部件的开放词汇3D生成框架,适用于游戏和模拟。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D生成 部件可控 开放词汇 游戏引擎 两阶段生成
📋 核心要点
- 现有3D生成模型缺乏对部件的精确控制,难以满足游戏和模拟等应用对语义部件的需求。
- CubePart框架通过显式地将部件结构作为控制信号,实现了开放词汇下对3D模型部件的精细控制。
- 该方法构建了大规模部件标注数据集,并采用两阶段生成架构,成功生成可直接用于游戏引擎的3D资产。
📝 摘要(中文)
本文提出了一种名为CubePart的生成框架,用于开放词汇、部件可控的3D网格生成,该框架将部件结构作为显式的推理时控制信号。针对游戏和模拟中常用的交互式3D资产通常被分解为特定的语义部件以支持动画、物理和脚本行为,而大多数生成式3D模型要么生成整体网格,要么生成无法与特定应用需求对齐的任意部件分解的问题,CubePart通过给定全局文本提示和用户定义的部分模式(表示为开放式的部件名称列表),生成一组网格(每个模式元素一个),这些网格组合成一个连贯的对象,同时尊重指定的语义结构。为了实现这一能力,我们引入了一个可扩展的数据管道来构建大型开放词汇、部件标记的3D数据集,以及一个两阶段生成架构,将全局形状合成与部件级解码分离。实验表明,生成的资产可以直接集成到游戏引擎中,并由动画和行为脚本驱动,无需手动后处理。
🔬 方法详解
问题定义:现有3D生成模型主要存在两个痛点:一是生成整体网格,缺乏对部件的分解;二是即使有部件分解,也往往是任意的,无法与特定应用场景的需求对齐,例如游戏引擎中对动画、物理效果和脚本行为的部件要求。这限制了生成式3D模型在交互式应用中的应用。
核心思路:CubePart的核心思路是将3D模型的部件结构作为显式的控制信号,在生成过程中显式地考虑部件信息。通过给定全局文本提示和用户定义的部件模式,模型能够生成符合语义结构的部件化3D模型。这种设计使得用户可以根据实际需求灵活地控制生成模型的部件组成。
技术框架:CubePart采用两阶段生成架构。第一阶段是全局形状合成,根据全局文本提示生成整体的3D形状。第二阶段是部件级解码,根据用户定义的部件模式,将全局形状分解为多个部件,并生成每个部件的网格。该框架包含一个可扩展的数据管道,用于构建大规模的开放词汇、部件标记的3D数据集,为模型的训练提供数据支持。
关键创新:CubePart的关键创新在于将部件结构作为显式的推理时控制信号,实现了开放词汇下对3D模型部件的精细控制。与现有方法相比,CubePart能够生成符合用户自定义部件模式的3D模型,从而更好地满足实际应用的需求。此外,构建大规模部件标注数据集也是一个重要的贡献。
关键设计:CubePart的数据集构建流程包括数据收集、部件标注和数据清洗等步骤。两阶段生成架构中,全局形状合成阶段可以使用现有的3D生成模型,部件级解码阶段则需要设计合适的网络结构,以实现将全局形状分解为多个部件的功能。损失函数的设计需要考虑部件之间的连贯性和语义一致性。
🖼️ 关键图片
📊 实验亮点
论文构建了一个大规模的开放词汇、部件标记的3D数据集,为部件可控的3D生成提供了数据基础。实验结果表明,CubePart能够生成符合用户自定义部件模式的3D模型,并且生成的资产可以直接集成到游戏引擎中,无需手动后处理。这表明CubePart具有很强的实用价值。
🎯 应用场景
CubePart在游戏开发、虚拟现实、增强现实、机器人仿真等领域具有广泛的应用前景。它可以用于快速生成具有特定部件结构的3D资产,例如游戏角色、场景道具等,从而提高开发效率。此外,CubePart还可以用于生成定制化的3D模型,满足用户的个性化需求。未来,该技术有望应用于更广泛的领域,例如3D打印、工业设计等。
📄 摘要(原文)
Interactive 3D assets used in games and simulation are typically decomposed into specific semantic parts to support animation, physics, and scripted behaviors, yet most generative 3D models produce either monolithic meshes or arbitrary part decompositions that cannot be aligned with application-specific requirements. We present CubePart, a generative framework for open-vocabulary, part-controllable 3D mesh generation that exposes part structure as an explicit inference-time control signal. Given a global text prompt and a user-defined parts schema expressed as an open-ended list of part names, our method generates a set of meshes - one per schema element - that assemble into a coherent object while respecting the specified semantic structure. To enable this capability, we introduce a scalable data pipeline to construct a large open-vocabulary, part-labeled 3D dataset, along with a two-stage generative architecture that separates global shape synthesis from part-level decoding. We demonstrate that the resulting assets can be directly integrated into game engines and driven by animation and behavior scripts without manual post-processing. Project Page: https://cubepart.github.io/