PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

作者: Peize Li, Zeyu Zhang, Hao Tang

分类: cs.CV

发布日期: 2026-02-19

🔗 代码/项目: GITHUB | PROJECT_PAGE

💡 一句话要点

PartRAG：提出检索增强的部件级3D生成与编辑框架，提升生成质量和编辑能力。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 3D生成 部件级编辑 检索增强 扩散模型 Transformer

📋 核心要点

现有单图像3D生成方法难以覆盖部件几何形状的长尾分布，且难以保证多视角一致性，限制了生成质量。
PartRAG通过检索增强的方式，利用外部部件数据库，将多样且物理上合理的部件样本注入到扩散Transformer的去噪过程中。
PartRAG引入部件级编辑器，在规范空间中进行局部编辑，无需重新生成整个对象，同时保持非目标部件和多视角一致性。

📝 摘要（中文）

本文提出PartRAG，一个检索增强框架，用于部件级3D生成和编辑，旨在解决单图像3D生成中部件几何形状长尾分布和多视角一致性问题，并提供精确的局部编辑能力。PartRAG集成了一个外部部件数据库和一个扩散Transformer，将生成与可编辑的表示相结合。为了解决长尾问题，引入了分层对比检索模块，该模块在部件和对象粒度上将密集图像块与3D部件潜在空间对齐，从包含1236个部件标注资产的数据库中检索，将多样且物理上合理的样本注入到去噪过程中。为了实现精确编辑，添加了一个掩码的部件级编辑器，该编辑器在共享规范空间中运行，无需重新生成整个对象即可实现交换、属性细化和组合更新，同时保留非目标部件和多视角一致性。PartRAG在Objaverse、ShapeNet和ABO上取得了有竞争力的结果，在Objaverse上，Chamfer距离从0.1726降低到0.1528，F-Score从0.7472提高到0.844，推理时间为38秒，交互式编辑时间为5-8秒。在定性方面，PartRAG产生了更清晰的部件边界，更好的薄结构保真度，以及在铰接对象上的鲁棒行为。

🔬 方法详解

问题定义：单图像3D生成任务面临部件几何形状长尾分布的问题，导致生成结果在部件细节上表现不佳，且难以保证多视角一致性。此外，现有的3D生成系统在进行局部编辑时，往往需要重新生成整个对象，效率低下且容易破坏非目标区域的结构。

核心思路：PartRAG的核心思路是利用检索增强的方式，将外部部件数据库中的高质量3D部件信息融入到生成过程中，从而克服部件几何形状的长尾分布问题。同时，通过在规范空间中进行部件级的局部编辑，实现高效且精确的3D对象修改。

技术框架：PartRAG的整体框架包含以下几个主要模块：1) 分层对比检索模块：用于从外部部件数据库中检索与输入图像相关的3D部件；2) 扩散Transformer：用于生成3D对象，并将检索到的部件信息融入到生成过程中；3) 部件级编辑器：用于在规范空间中对3D对象进行局部编辑。整个流程首先通过分层对比检索模块检索相关部件，然后利用扩散Transformer生成初始3D对象，最后通过部件级编辑器进行局部修改。

关键创新：PartRAG的关键创新在于：1) 提出了分层对比检索模块，能够有效地从外部数据库中检索相关的3D部件；2) 引入了部件级编辑器，实现了高效且精确的3D对象局部编辑；3) 将检索增强与扩散Transformer相结合，提升了3D生成的质量和可控性。与现有方法相比，PartRAG能够生成更逼真、更精细的3D对象，并提供更灵活的编辑能力。

关键设计：分层对比检索模块采用对比学习的方式，将图像块与3D部件潜在空间对齐，从而实现高效的检索。扩散Transformer采用标准的Transformer架构，并引入了注意力机制，用于融合检索到的部件信息。部件级编辑器在规范空间中进行操作，通过掩码的方式选择需要编辑的部件，并利用优化算法调整部件的形状和位置。

🖼️ 关键图片

📊 实验亮点

PartRAG在Objaverse数据集上取得了显著的性能提升，Chamfer距离从0.1726降低到0.1528，F-Score从0.7472提高到0.844。此外，PartRAG还能够生成更清晰的部件边界和更好的薄结构保真度，并在铰接对象上表现出鲁棒性。交互式编辑速度也很快，仅需5-8秒。

🎯 应用场景

PartRAG具有广泛的应用前景，例如：游戏资产生成、虚拟现实内容创作、工业设计等。它可以帮助用户快速生成高质量的3D模型，并进行灵活的编辑和修改，从而提高工作效率和创作质量。未来，PartRAG可以进一步扩展到其他领域，例如：医学图像分析、机器人导航等。

📄 摘要（原文）

Single-image 3D generation with part-level structure remains challenging: learned priors struggle to cover the long tail of part geometries and maintain multi-view consistency, and existing systems provide limited support for precise, localized edits. We present PartRAG, a retrieval-augmented framework that integrates an external part database with a diffusion transformer to couple generation with an editable representation. To overcome the first challenge, we introduce a Hierarchical Contrastive Retrieval module that aligns dense image patches with 3D part latents at both part and object granularity, retrieving from a curated bank of 1,236 part-annotated assets to inject diverse, physically plausible exemplars into denoising. To overcome the second challenge, we add a masked, part-level editor that operates in a shared canonical space, enabling swaps, attribute refinements, and compositional updates without regenerating the whole object while preserving non-target parts and multi-view consistency. PartRAG achieves competitive results on Objaverse, ShapeNet, and ABO-reducing Chamfer Distance from 0.1726 to 0.1528 and raising F-Score from 0.7472 to 0.844 on Objaverse-with inference of 38s and interactive edits in 5-8s. Qualitatively, PartRAG produces sharper part boundaries, better thin-structure fidelity, and robust behavior on articulated objects. Code: https://github.com/AIGeeksGroup/PartRAG. Website: https://aigeeksgroup.github.io/PartRAG.

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理