BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis

📄 arXiv: 2605.00632v1 📥 PDF

作者: Massimo Rondelli, Francesco Pivi, Maurizio Gabbrielli

分类: cs.CV, cs.AI, cs.GR, cs.HC, cs.LG

发布日期: 2026-05-01

🔗 代码/项目: GITHUB


💡 一句话要点

BlenderRAG:通过检索增强的代码合成实现高保真3D对象生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D对象生成 代码合成 检索增强生成 Blender 大型语言模型 多模态学习 CLIP

📋 核心要点

  1. 现有方法在从自然语言生成Blender代码时,容易产生语法错误和几何不一致的对象,导致生成质量不高。
  2. BlenderRAG通过检索与输入文本语义相似的代码示例,并将其融入到代码生成过程中,从而提高代码的正确性和对象的一致性。
  3. 实验表明,BlenderRAG显著提高了代码编译成功率和生成对象的语义对齐度,且无需额外的微调或硬件资源。

📝 摘要(中文)

本文提出BlenderRAG,一个检索增强生成系统,用于从自然语言自动生成可执行的Blender代码。现有方法生成的代码经常出现语法错误和几何不一致的对象,面临挑战。BlenderRAG利用一个包含500个专家验证的多模态数据集(文本、代码、图像),涵盖50个对象类别。通过在生成过程中检索语义相似的示例,BlenderRAG在四个最先进的LLM上,将编译成功率从40.8%提高到70.0%,语义归一化对齐(CLIP相似度)从0.41提高到0.77,无需微调或专用硬件,使其能够立即部署。数据集和代码可在https://github.com/MaxRondelli/BlenderRAG 获取。

🔬 方法详解

问题定义:论文旨在解决从自然语言描述自动生成高质量3D Blender模型代码的问题。现有方法,特别是直接使用大型语言模型(LLMs),在生成Blender代码时经常出现语法错误,导致代码无法编译执行,并且生成的3D对象在几何上不一致,与自然语言描述不符。这些问题限制了LLMs在3D内容创作领域的应用。

核心思路:论文的核心思路是利用检索增强生成(Retrieval-Augmented Generation, RAG)的方法,在生成Blender代码之前,先从一个包含大量高质量代码示例的数据集中检索与输入自然语言描述语义相似的示例。然后,将检索到的示例作为上下文信息,引导LLM生成更准确、更一致的代码。这样可以有效减少LLM生成错误代码的概率,并提高生成对象的质量。

技术框架:BlenderRAG系统主要包含以下几个模块:1) 数据集构建:构建一个包含文本描述、Blender代码和对应3D对象图像的多模态数据集。2) 检索模块:使用CLIP模型计算输入文本描述与数据集中文本描述的相似度,检索Top-K个最相似的示例。3) 代码生成模块:将检索到的示例与原始输入文本描述一起输入到LLM中,LLM根据这些信息生成Blender代码。4) 评估模块:评估生成的代码的编译成功率和生成对象的语义对齐度。

关键创新:BlenderRAG的关键创新在于将检索增强生成技术应用于3D Blender代码生成任务。通过检索语义相似的示例,可以有效地利用已有的高质量代码,避免LLM从头开始生成代码,从而减少错误和提高生成质量。此外,该方法无需对LLM进行微调,可以直接应用于现有的LLM,具有很强的通用性和易用性。

关键设计:在数据集构建方面,论文使用了500个专家验证的示例,涵盖50个对象类别。在检索模块,使用了CLIP模型计算文本相似度,并选择了Top-K个最相似的示例作为上下文信息。在代码生成模块,使用了不同的LLM(如GPT-3, Codex, PaLM)进行实验,并比较了它们在不同设置下的性能。评估指标包括编译成功率和CLIP相似度,用于衡量生成代码的正确性和生成对象的语义对齐度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BlenderRAG在四个最先进的LLM上,将编译成功率从40.8%提高到70.0%,语义归一化对齐(CLIP相似度)从0.41提高到0.77。这些结果表明,BlenderRAG能够显著提高Blender代码的生成质量和效率,且无需额外的微调或硬件资源。

🎯 应用场景

BlenderRAG具有广泛的应用前景,可以应用于游戏开发、虚拟现实、建筑设计、工业设计等领域。它可以帮助用户快速生成3D模型,降低3D内容创作的门槛,提高创作效率。未来,可以将BlenderRAG与更多的LLM和3D建模软件集成,实现更强大的3D内容生成能力。

📄 摘要(原文)

Automatic generation of executable Blender code from natural language remains challenging, with state-of-the-art LLMs producing frequent syntactic errors and geometrically inconsistent objects. We present BlenderRAG, a retrieval-augmented generation system that operates on a curated multimodal dataset of 500 expert-validated examples (text, code, image) across 50 object categories. By retrieving semantically similar examples during generation, BlenderRAG improves compilation success rates from 40.8% to 70.0% and semantic normalized alignment from 0.41 to 0.77 (CLIP similarity) across four state-of-the-art LLMs, without requiring fine-tuning or specialized hardware, making it immediately accessible for deployment. The dataset and code will be available at https://github.com/MaxRondelli/BlenderRAG.