Articraft: An Agentic System for Scalable Articulated 3D Asset Generation

📄 arXiv: 2605.15187v1 📥 PDF

作者: Matt Zhou, Ruining Li, Xiaoyang Lyu, Zhaomou Song, Zhening Huang, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi, Shangzhe Wu

分类: cs.CV, cs.GR, cs.RO

发布日期: 2026-05-14

备注: Project page: https://articraft3d.github.io/


💡 一句话要点

Articraft:一种基于Agent的可扩展铰接3D资产生成系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 铰接3D资产生成 大型语言模型 Agent系统 程序化生成 机器人仿真

📋 核心要点

  1. 现有铰接3D对象数据集规模和多样性不足,限制了相关模型的训练和应用。
  2. Articraft将3D资产生成转化为程序编写,利用LLM自动生成代码,构建铰接对象。
  3. Articraft生成了包含10K+资产的Articraft-10K数据集,并在机器人仿真等下游任务中验证了其有效性。

📝 摘要(中文)

理解铰接3D对象的一个瓶颈是缺乏大型且多样化的数据集。本文提出利用大型语言模型(LLMs)来弥补这一差距,并大规模生成铰接资产。我们将生成铰接3D资产的问题简化为编写构建它的程序。然后,我们引入了一个新的agent系统Articraft,它可以自动编写此类程序。我们设计了一个程序化接口和工具,以帮助LLM有效地完成任务。LLM针对特定领域的SDK编写代码,用于定义部件、组合几何体、指定关节以及编写测试来验证生成的资产。该工具向LLM公开一个受限的工作区和接口,验证生成的资产,并返回结构化反馈。通过这种方式,LLM不会被诸如编写URDF文件或管理复杂软件环境等细节分散注意力。我们表明,与最先进的铰接资产生成器和通用编码agent相比,这可以生成更高质量的资产。使用Articraft,我们构建了Articraft-10K,这是一个包含超过10K个铰接资产的精选数据集,涵盖245个类别,并展示了其在训练铰接资产模型以及在机器人仿真和虚拟现实等下游应用中的效用。

🔬 方法详解

问题定义:现有铰接3D资产生成方法难以生成大规模、高质量和多样化的数据集。手动创建成本高昂,而现有自动生成方法质量较低,难以满足训练和下游应用的需求。

核心思路:将铰接3D资产的生成过程视为一个程序编写问题,利用大型语言模型(LLMs)的代码生成能力,自动编写程序来构建这些资产。通过精心设计的程序化接口和受限环境,引导LLM生成符合要求的3D模型。

技术框架:Articraft系统包含以下几个主要模块:1) 程序化接口:定义了一套特定领域的SDK,用于定义部件、组合几何体、指定关节和编写测试。2) LLM Agent:负责根据程序化接口编写代码,生成3D资产。3) Harness:提供受限的工作区和接口,验证生成的资产,并返回结构化反馈。整个流程是一个迭代过程,LLM根据Harness的反馈不断改进代码,直到生成满足要求的3D资产。

关键创新:核心创新在于将3D资产生成问题转化为程序编写问题,并利用LLM的代码生成能力。通过程序化接口和受限环境,有效地引导LLM生成高质量的铰接3D资产。这种方法避免了手动建模的繁琐,也克服了现有自动生成方法质量较低的问题。

关键设计:程序化接口的设计至关重要,需要提供足够的功能来描述复杂的铰接结构,同时又要足够简单,以便LLM能够有效地使用。Harness的设计也需要仔细考虑,需要能够有效地验证生成的资产,并提供有用的反馈信息。具体的参数设置、损失函数和网络结构等细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Articraft生成了包含超过10K个铰接资产的Articraft-10K数据集,涵盖245个类别。实验表明,Articraft生成的资产质量高于现有铰接资产生成器和通用编码agent。该数据集在训练铰接资产模型以及机器人仿真等下游应用中表现出良好的效果。

🎯 应用场景

Articraft生成的铰接3D资产数据集可用于训练各种3D模型,例如用于机器人操作、虚拟现实和增强现实等应用中的对象识别、姿态估计和运动规划模型。该数据集能够促进相关领域的研究和发展,并加速这些技术在实际场景中的应用。

📄 摘要(原文)

A bottleneck in learning to understand articulated 3D objects is the lack of large and diverse datasets. In this paper, we propose to leverage large language models (LLMs) to close this gap and generate articulated assets at scale. We reduce the problem of generating an articulated 3D asset to that of writing a program that builds it. We then introduce a new agentic system, Articraft, that writes such programs automatically. We design a programmatic interface and harness to help the LLM do so effectively. The LLM writes code against a domain-specific SDK for defining parts, composing geometry, specifying joints, and writing tests to validate the resulting assets. The harness exposes a restricted workspace and interface to the LLM, validates the resulting assets, and returns structured feedback. In this way, the LLM is not distracted by details such as authoring a URDF file or managing a complex software environment. We show that this produces higher-quality assets than both state-of-the-art articulated-asset generators and general-purpose coding agents. Using Articraft, we build Articraft-10K, a curated dataset of over 10K articulated assets spanning 245 categories, and show its utility both for training models of articulated assets and in downstream applications such as robotics simulation and virtual reality.