PnP-U3D: Plug-and-Play 3D Framework Bridging Autoregression and Diffusion for Unified Understanding and Generation

📄 arXiv: 2602.03533v1 📥 PDF

作者: Yongwei Chen, Tianyi Wei, Yushi Lan, Zhaoyang Lyu, Shangchen Zhou, Xudong Xu, Xingang Pan

分类: cs.CV

发布日期: 2026-02-03

备注: Yongwei Chen and Tianyi Wei contributed equally. Project page: https://cyw-3d.github.io/PnP-U3D/


💡 一句话要点

提出PnP-U3D框架,结合自回归与扩散模型,统一3D理解与生成任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D理解 3D生成 自回归模型 扩散模型 统一框架 跨模态学习 3D场景编辑

📋 核心要点

  1. 现有3D统一框架依赖自回归模型,存在量化误差和训练成本高的问题,导致性能下降。
  2. PnP-U3D框架结合自回归进行3D理解,扩散模型进行3D生成,并用Transformer桥接二者。
  3. 实验表明,PnP-U3D在3D理解、生成和编辑任务上均达到SOTA,验证了其有效性。

📝 摘要(中文)

大型多模态模型的快速发展激发了统一理解和生成框架的研究。虽然此类范例在2D领域取得了显著成功,但将其扩展到3D领域仍未得到充分探索。现有尝试在单一自回归(AR)范例下统一3D任务的方法,由于强制信号量化和过高的训练成本,导致性能显著下降。我们的关键见解是,本质挑战不在于强制统一的自回归范例,而在于在最小化损害其固有能力并利用预训练模型以降低训练成本的同时,实现生成和理解之间有效的的信息交互。基于此,我们提出了第一个结合自回归与扩散的3D理解和生成统一框架。具体而言,我们采用自回归的下一个token预测范例进行3D理解,并采用连续扩散范例进行3D生成。一个轻量级的Transformer连接了大型语言模型的特征空间和3D扩散模型的条件空间,从而在保留独立模型学习到的先验知识的同时,实现有效的跨模态信息交换。大量实验表明,我们的框架在各种3D理解和生成基准测试中均实现了最先进的性能,并且在3D编辑任务中也表现出色。这些结果突出了统一的AR+扩散模型作为构建更通用的3D智能的有前途的方向的潜力。

🔬 方法详解

问题定义:现有方法尝试用单一自回归模型统一3D理解和生成任务,但由于需要将连续的3D信号强制量化为离散token,导致信息损失和性能下降。此外,自回归模型的训练成本随着3D数据复杂性的增加而迅速增长,难以扩展到大规模3D场景。

核心思路:论文的核心思路是将3D理解和生成任务解耦,分别采用最适合它们的模型范式:自回归模型擅长理解和推理,而扩散模型擅长生成高质量的连续数据。通过一个桥接模块,实现两种模型的有效信息交互,从而在统一框架下实现高性能的3D理解和生成。

技术框架:PnP-U3D框架包含三个主要模块:3D理解模块、3D生成模块和桥接模块。3D理解模块采用自回归的Transformer模型,用于预测下一个3D token。3D生成模块采用连续扩散模型,用于生成高质量的3D数据。桥接模块是一个轻量级的Transformer,用于将3D理解模块的特征空间映射到3D生成模块的条件空间,实现跨模态信息交换。

关键创新:最重要的创新点在于提出了一个结合自回归和扩散模型的统一框架,避免了强制量化带来的信息损失和训练成本问题。通过桥接模块,实现了两种模型的有效信息交互,充分利用了各自的优势。与现有方法相比,PnP-U3D在性能和效率上都取得了显著提升。

关键设计:桥接模块采用轻量级的Transformer结构,以减少计算开销。损失函数包括自回归理解损失和扩散生成损失。在训练过程中,首先独立训练自回归理解模块和扩散生成模块,然后联合训练桥接模块,以实现最佳性能。具体来说,理解模块使用交叉熵损失,生成模块使用L2损失,桥接模块的训练目标是最小化理解模块特征和生成模块条件之间的距离。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PnP-U3D在多个3D理解和生成基准测试中取得了SOTA性能。例如,在3D场景编辑任务中,PnP-U3D相比现有方法取得了显著的性能提升。实验结果表明,PnP-U3D能够生成高质量的3D数据,并有效利用3D场景信息进行理解和推理。

🎯 应用场景

PnP-U3D框架可应用于各种3D场景理解和生成任务,例如3D场景编辑、3D内容创作、机器人导航和交互等。该框架的统一性和高性能使其成为构建通用3D智能系统的有希望的途径,并有望推动3D视觉和机器人技术的进一步发展。

📄 摘要(原文)

The rapid progress of large multimodal models has inspired efforts toward unified frameworks that couple understanding and generation. While such paradigms have shown remarkable success in 2D, extending them to 3D remains largely underexplored. Existing attempts to unify 3D tasks under a single autoregressive (AR) paradigm lead to significant performance degradation due to forced signal quantization and prohibitive training cost. Our key insight is that the essential challenge lies not in enforcing a unified autoregressive paradigm, but in enabling effective information interaction between generation and understanding while minimally compromising their inherent capabilities and leveraging pretrained models to reduce training cost. Guided by this perspective, we present the first unified framework for 3D understanding and generation that combines autoregression with diffusion. Specifically, we adopt an autoregressive next-token prediction paradigm for 3D understanding, and a continuous diffusion paradigm for 3D generation. A lightweight transformer bridges the feature space of large language models and the conditional space of 3D diffusion models, enabling effective cross-modal information exchange while preserving the priors learned by standalone models. Extensive experiments demonstrate that our framework achieves state-of-the-art performance across diverse 3D understanding and generation benchmarks, while also excelling in 3D editing tasks. These results highlight the potential of unified AR+diffusion models as a promising direction for building more general-purpose 3D intelligence.