Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models

作者: Wenyue Chen, Wenjue Chen, Peng Li, Qinghe Wang, Xu Jia, Heliang Zheng, Rongfei Jia, Yuan Liu, Ronggang Wang

分类: cs.CV

发布日期: 2026-03-24

备注: page: https://xishuxishu.github.io/Know3D.github.io/

💡 一句话要点

Know3D：利用视觉-语言模型知识提示3D生成，实现可控后视图生成。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D生成 视觉-语言模型 扩散模型 后视图生成 语义控制

📋 核心要点

现有3D生成模型在处理单视图重建时，由于缺乏全局结构先验，导致生成结果随机且难以控制，无法满足用户意图。
Know3D通过将视觉-语言模型（VLM）的知识注入到3D生成过程中，利用VLM进行语义理解和指导，实现对3D资产后视图的语言可控生成。
该方法通过VLM-扩散模型，将VLM的语义知识传递到3D生成模型，从而弥合了文本指令与几何重建之间的差距，实现了语义可控的3D生成。

📝 摘要（中文）

现有的3D生成方法在合成3D资产的逼真度和几何细节方面取得了显著进展。然而，由于单视图观测的固有模糊性以及有限的3D训练数据导致的鲁棒全局结构先验的缺乏，现有模型生成的不可见区域通常是随机且难以控制的，这可能无法与用户意图对齐或产生不合理的几何结构。本文提出了Know3D，一种新颖的框架，通过潜在隐藏状态注入将多模态大型语言模型中的丰富知识融入3D生成过程，从而实现对3D资产后视图的语言可控生成。我们利用基于VLM-扩散的模型，其中VLM负责语义理解和指导。扩散模型充当桥梁，将语义知识从VLM传递到3D生成模型。通过这种方式，我们成功地弥合了抽象文本指令与未观测区域的几何重建之间的差距，将传统上随机的后视图幻觉转变为语义可控的过程，为未来的3D生成模型展示了一个有希望的方向。

🔬 方法详解

问题定义：现有3D生成模型，特别是基于单视图的3D重建，由于缺乏对物体完整结构的理解，导致在生成未观测到的区域（如后视图）时，结果具有很大的随机性，难以保证生成结果的合理性和与用户意图的一致性。现有方法难以将高级语义信息融入到3D生成过程中。

核心思路：Know3D的核心思路是利用视觉-语言模型（VLM）强大的语义理解能力，将文本描述转化为对3D生成过程的指导。通过将VLM的知识注入到3D生成模型的潜在空间中，使得生成过程能够受到语言指令的约束，从而实现对3D资产后视图的语义可控生成。

技术框架：Know3D采用VLM-扩散模型框架。首先，使用VLM对输入的文本描述进行编码，提取语义特征。然后，将这些语义特征注入到扩散模型的潜在空间中，作为生成过程的条件。扩散模型负责将这些语义信息转化为3D几何结构，逐步生成3D资产的后视图。整个框架包含VLM编码器、扩散模型和3D生成器三个主要模块。

关键创新：Know3D的关键创新在于将VLM的知识注入到3D生成模型的潜在空间中，实现了语言对3D生成过程的直接控制。与现有方法相比，Know3D不再依赖于随机的后视图幻觉，而是能够根据用户提供的文本描述，生成具有特定语义信息的3D后视图。这种方法将抽象的文本指令与具体的几何重建联系起来，为3D生成带来了新的可能性。

关键设计：Know3D的关键设计包括：1) 选择合适的VLM模型，确保其具有强大的语义理解能力；2) 设计有效的注入机制，将VLM的语义特征融入到扩散模型的潜在空间中，避免信息损失；3) 优化扩散模型的训练过程，使其能够更好地利用VLM提供的语义信息，生成高质量的3D资产。

🖼️ 关键图片

📊 实验亮点

论文提出的Know3D框架，通过将视觉-语言模型的知识注入到3D生成过程中，实现了对3D资产后视图的语言可控生成。实验结果表明，Know3D能够根据用户提供的文本描述，生成具有特定语义信息的3D后视图，显著提高了生成结果的质量和可控性。具体的性能数据和对比基线信息未知。

🎯 应用场景

Know3D具有广泛的应用前景，例如在游戏开发中，可以根据文本描述快速生成各种3D角色和场景；在电商领域，可以根据用户需求定制3D产品模型；在教育领域，可以用于创建交互式的3D学习环境。该研究的未来影响在于推动3D生成技术的发展，使其更加智能化和可控，从而更好地服务于各行各业。

📄 摘要（原文）

Recent advances in 3D generation have improved the fidelity and geometric details of synthesized 3D assets. However, due to the inherent ambiguity of single-view observations and the lack of robust global structural priors caused by limited 3D training data, the unseen regions generated by existing models are often stochastic and difficult to control, which may sometimes fail to align with user intentions or produce implausible geometries. In this paper, we propose Know3D, a novel framework that incorporates rich knowledge from multimodal large language models into 3D generative processes via latent hidden-state injection, enabling language-controllable generation of the back-view for 3D assets. We utilize a VLM-diffusion-based model, where the VLM is responsible for semantic understanding and guidance. The diffusion model acts as a bridge that transfers semantic knowledge from the VLM to the 3D generation model. In this way, we successfully bridge the gap between abstract textual instructions and the geometric reconstruction of unobserved regions, transforming the traditionally stochastic back-view hallucination into a semantically controllable process, demonstrating a promising direction for future 3D generation models.

Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理