3D-CoS: A New 3D Reconstruction Paradigm Based on VLM Code Synthesis

📄 arXiv: 2606.10478v1 📥 PDF

作者: Yuhao Wang, Puyi Wang, Linjie Li, Zhengyuan Yang, Kevin Qinghong Lin, Yu Cheng

分类: cs.CV

发布日期: 2026-06-09

备注: Preprint. 24 pages, 11 figures


💡 一句话要点

提出3D-CoS以解决3D重建控制难题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D重建 代码合成 程序化建模 可解释性 虚拟现实 编辑工具

📋 核心要点

  1. 现有的3D重建方法在程序控制上存在困难,难以实现高效的编辑与修改。
  2. 本文提出3D-CoS,通过将3D资产表示为可执行的Blender代码,提升了3D重建的可控性与可解释性。
  3. 实验结果显示,代码驱动的编辑在保真度和未编辑区域的保留上优于基于点云的编辑基线。

📝 摘要(中文)

大多数近期的3D重建和编辑系统依赖于隐式和显式表示,如NeRF、点云或网格。这些表示虽然能够实现高保真渲染,但在程序控制上存在困难。本文提出并系统评估了一种新的3D重建范式——3D代码合成(3D-CoS),将3D资产构建为可执行的Blender代码,提供了一种程序化和可解释的媒介。我们评估了当前的VLM在基于代码的重建中的表现,并引入了一套结构化的代码合成工作流程。研究表明,代码作为3D表示提供了强大的可控性和局部性,显著提升了编辑的保真度和未编辑区域的保留效果。

🔬 方法详解

问题定义:本文旨在解决现有3D重建方法在程序控制和可编辑性方面的不足,尤其是隐式和显式表示的低级别控制难题。

核心思路:提出3D代码合成(3D-CoS)范式,将3D资产构建为可执行的Blender代码,以实现更高的可控性和可解释性。

技术框架:整体架构包括蓝图规划、基于检索增强生成(RAG)的Blender API文档生成、少量几何演示和组件级代理工作流,支持逐部分代码生成。

关键创新:最大的技术创新在于将3D表示转化为可执行代码,这一方法与传统的点云和网格表示本质上不同,提供了更强的局部编辑能力。

关键设计:在设计中,采用了结构化的代码合成工作流程,结合了蓝图规划和几何演示,确保了生成代码的高效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于代码的编辑在编辑保真度上相比点云基线提升了显著的性能,尤其在未编辑区域的保留上表现更佳,展示了3D-CoS的强大优势。

🎯 应用场景

该研究的潜在应用领域包括游戏开发、动画制作和虚拟现实等,能够为3D资产的创建和编辑提供更高效的工具,提升创作效率和灵活性。未来,3D-CoS可能会推动更广泛的程序化建模和自动化设计的应用。

📄 摘要(原文)

Most recent 3D reconstruction and editing systems operate on implicit and explicit representations such as NeRF, point clouds, or meshes. While these representations enable high-fidelity rendering, they are fundamentally low-level and hard to control programmatically. In contrast, we propose and systematically evaluate a new 3D reconstruction paradigm, 3D Code Synthesis (3D-CoS), where 3D assets are constructed as executable Blender code, a programmatic and interpretable medium. To assess how well current VLMs can use code to represent 3D objects, we evaluate representative open-source and closed-source VLMs in code-based reconstruction under a unified protocol. We further introduce a suite of structured code-synthesis workflows, including blueprint-based planning, Retrieval-Augmented Generation (RAG) over Blender API documentation, few-shot geometric demonstrations, and a component-level Agent workflow for part-wise code generation. To demonstrate the unique advantages of this representation, we further evaluate localized text-driven modifications and compare our code-based edits with a point-cloud-based 3D editing baseline. Our study shows that code as a 3D representation offers strong controllability and locality, yielding stronger edit fidelity and better preservation of unedited regions in our targeted editing evaluation. Our work also analyzes the potential of this paradigm, delineates the current capability frontier of VLMs for programmatic 3D modeling, and highlights code synthesis as a promising direction for editable 3D reconstruction.