3DrawAgent: Teaching LLM to Draw in 3D with Early Contrastive Experience
作者: Hongcan Xiao, Xinyue Xiao, Yilin Wang, Yue Zhang, Yonggang Qi
分类: cs.CV, cs.AI
发布日期: 2026-04-09
备注: CVPR 2026 Highlight
💡 一句话要点
3DrawAgent:利用对比经验教LLM在3D空间中进行绘画
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D草图生成 大型语言模型 对比学习 几何推理 无监督学习
📋 核心要点
- 现有方法难以通过自然语言生成3D草图,尤其是在理解形状、结构和空间关系方面。
- 3DrawAgent利用LLM和几何反馈,通过顺序绘制3D Bezier曲线生成3D草图,无需训练。
- 实验表明,3DrawAgent能够生成复杂连贯的3D草图,并展现出几何推理能力和泛化性。
📝 摘要(中文)
本文提出3DrawAgent,一个无需训练、语言驱动的3D草图生成框架,它利用大型语言模型(LLMs)在几何反馈下顺序绘制3D Bezier曲线。与之前的2D草图Agent不同,该方法引入了一种相对经验优化策略,改进了最近提出的Group Reward Policy Optimization (GRPO)范式。该方法不依赖于显式的ground-truth监督,而是在生成的草图之间构建成对比较,每对草图都包含一个相对更好和一个更差的结果,比较标准基于CLIP的感知奖励和LLM的细粒度定性评估。这些经验被用于迭代地改进模型对3D绘画的先验知识,从而在没有参数更新的情况下强化模型对3D的感知。实验表明,3DrawAgent可以从不同的文本提示中生成复杂且连贯的3D Bezier草图,表现出涌现的几何推理能力,并推广到新的形状,为推进无需训练的3D草图智能领域建立了一个新的范例。
🔬 方法详解
问题定义:论文旨在解决通过自然语言生成高质量3D草图的问题。现有方法通常依赖大量标注数据进行训练,或者难以捕捉3D空间中的复杂几何关系,导致生成效果不佳。此外,如何有效地利用LLM的知识来指导3D草图生成也是一个挑战。
核心思路:论文的核心思路是利用LLM作为3D草图生成的Agent,通过与环境的交互和反馈不断优化生成策略。关键在于设计一种有效的奖励机制,引导LLM生成符合文本描述且具有良好几何结构的3D草图。通过对比学习的方式,让LLM学习区分好坏草图,从而提升生成质量。
技术框架:3DrawAgent框架主要包含以下几个模块:1) LLM Agent:负责根据文本提示生成3D Bezier曲线的控制点序列。2) 3D Sketch Renderer:将控制点序列渲染成3D草图。3) Reward Function:评估生成草图的质量,包括CLIP-based感知奖励和LLM-based定性评估。4) Experience Replay:存储生成的草图及其对应的奖励,用于对比学习。5) GRPO优化:利用Group Reward Policy Optimization算法,根据对比经验更新LLM的生成策略。
关键创新:该方法最重要的创新在于提出了基于对比经验的3D草图生成框架,无需显式的ground-truth监督。通过CLIP和LLM的结合,构建了一种有效的奖励机制,能够准确评估3D草图的质量。此外,将GRPO算法应用于3D草图生成,实现了LLM生成策略的有效优化。
关键设计:Reward Function的设计是关键。CLIP-based感知奖励用于衡量生成草图与文本描述的匹配程度,LLM-based定性评估则用于评估草图的几何结构和美观程度。具体而言,CLIP奖励计算文本提示和渲染图像之间的相似度,LLM评估则通过prompt工程,让LLM对草图进行打分。GRPO算法中,通过pairwise比较选择相对更好和更差的草图,并利用这些对比经验更新LLM的生成策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,3DrawAgent能够生成复杂且连贯的3D Bezier草图,并展现出涌现的几何推理能力。在多个文本提示下,3DrawAgent生成的草图质量明显优于现有方法,并且能够泛化到新的形状。该方法在无需训练的情况下,实现了3D草图生成质量的显著提升。
🎯 应用场景
该研究成果可应用于3D内容创作、虚拟现实、计算机辅助设计等领域。例如,用户可以通过自然语言描述快速生成所需的3D模型草图,从而提高设计效率。此外,该方法还可以用于教育领域,帮助学生更好地理解3D空间概念。
📄 摘要(原文)
Sketching in 3D space enables expressive reasoning about shape, structure, and spatial relationships, yet generating 3D sketches through natural language remains a major challenge. In this work, we introduce 3DrawAgent, a training-free, language-driven framework for 3D sketch generation that leverages large language models (LLMs) to sequentially draw 3D Bezier curves under geometric feedback. Unlike prior 2D sketch agents, our method introduces a relative experience optimization strategy that adapts the recently proposed Group Reward Policy Optimization (GRPO) paradigm. Instead of relying on explicit ground-truth supervision, we construct pairwise comparisons among generated sketches, with each pair consisting of a relatively better and a worse result based on CLIP-based perceptual rewards and LLM-based fine-grained qualitative assessment. These experiences are then used to iteratively refine the prior knowledge of 3D drawing, enabling black-box reinforcement of the model's 3D awareness. This design allows our model to self-improve its spatial understanding and drawing quality without parameter updates. Experiments show that 3DrawAgent can generate complex and coherent 3D Bezier sketches from diverse textual prompts, exhibit emergent geometric reasoning, and generalize to novel shapes, establishing a new paradigm for advancing the field of training-free 3D sketch intelligence.