ShapeLib: Designing a library of programmatic 3D shape abstractions with Large Language Models
作者: R. Kenny Jones, Paul Guerrero, Niloy J. Mitra, Daniel Ritchie
分类: cs.CV, cs.AI, cs.GR
发布日期: 2025-02-13 (更新: 2025-06-19)
💡 一句话要点
ShapeLib:利用大语言模型设计可编程3D形状抽象库
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D形状抽象 大语言模型 程序生成 形状分析 几何推理 形状编辑 形状生成 可编程建模
📋 核心要点
- 现有形状分析方法难以发现可重用的抽象函数,且缺乏可解释的语义对齐接口。
- ShapeLib利用LLM的先验知识,通过引导式工作流程,自动发现并验证3D形状的抽象函数。
- 实验表明,ShapeLib生成的抽象函数库具有良好的泛化性、可用性,并能支持形状编辑和生成等下游应用。
📝 摘要(中文)
ShapeLib是首个利用大语言模型(LLM)先验知识来设计可编程3D形状抽象库的方法。该系统接受两种形式的设计意图:库中包含的函数的文本描述以及示例形状的种子集。通过引导LLM工作流程,系统发现与设计意图匹配的抽象,该流程首先提出,然后验证应用和实现函数的不同方式。通过训练LLM生成的合成数据,系统学习识别网络,将形状映射到使用这些新发现的抽象的程序。在不同的建模领域(按形状类别划分)中,我们发现,当LLM与几何推理巧妙结合时,可以引导其编写一个抽象函数库,该库可以推广到种子集之外的形状。该框架解决了长期存在的形状分析问题,即如何发现可重用的抽象函数,同时公开可解释的、语义对齐的接口。我们发现,ShapeLib在泛化性、可用性和保持操作下的合理性方面,比以前的替代抽象发现工作具有明显的优势。最后,我们证明了ShapeLib的抽象函数可以解锁许多下游应用,将LLM对形状程序的推理与几何处理相结合,以支持形状编辑和生成。
🔬 方法详解
问题定义:现有的形状分析方法在发现可重用的抽象函数方面存在困难,并且难以提供可解释和语义对齐的接口。这些方法通常依赖于手工设计的特征或复杂的优化过程,泛化能力有限,难以适应不同类型的形状。
核心思路:ShapeLib的核心思路是利用大语言模型(LLM)的强大先验知识和推理能力,自动发现和验证3D形状的抽象函数。通过将形状抽象问题转化为LLM可以理解和处理的文本描述和程序生成任务,从而实现更高效和灵活的形状分析。
技术框架:ShapeLib的整体框架包含以下几个主要模块:1) 设计意图输入:接受函数文本描述和示例形状作为输入。2) LLM引导的抽象函数生成:利用LLM提出并验证不同的函数应用和实现方式。3) 合成数据生成:使用LLM生成合成数据,用于训练识别网络。4) 识别网络训练:训练网络将形状映射到使用抽象函数的程序。5) 下游应用:将学习到的抽象函数应用于形状编辑和生成等任务。
关键创新:ShapeLib的关键创新在于将LLM引入到3D形状抽象函数的发现过程中。与传统方法相比,ShapeLib能够自动生成可解释的、语义对齐的抽象函数,并且具有更好的泛化能力。此外,ShapeLib还提出了一种引导LLM生成抽象函数和合成数据的方法,从而提高了学习效率和效果。
关键设计:ShapeLib的关键设计包括:1) 使用文本描述和示例形状作为设计意图的输入,使得用户可以更直观地指定所需的抽象函数。2) 设计了一种引导LLM生成抽象函数的工作流程,包括函数提议、验证和实现等步骤。3) 利用LLM生成合成数据,用于训练识别网络,从而避免了对大量真实数据的依赖。4) 使用形状程序作为形状的表示形式,从而可以方便地进行形状编辑和生成等操作。
🖼️ 关键图片
📊 实验亮点
ShapeLib在多个建模领域(按形状类别划分)的实验结果表明,LLM在与几何推理结合时,可以生成能够推广到种子集之外形状的抽象函数库。与之前的抽象发现工作相比,ShapeLib在泛化性、可用性和保持操作下的合理性方面具有明显的优势。此外,ShapeLib还成功地应用于形状编辑和生成等下游任务,证明了其抽象函数的有效性。
🎯 应用场景
ShapeLib的潜在应用领域包括:3D建模、计算机辅助设计(CAD)、游戏开发、机器人技术等。通过自动发现和生成可重用的形状抽象函数,ShapeLib可以显著提高3D建模的效率和质量,并为各种下游应用提供更强大的支持。未来,ShapeLib可以进一步扩展到更复杂的形状和场景,并与其他AI技术相结合,实现更智能化的3D内容创作。
📄 摘要(原文)
We present ShapeLib, the first method that leverages the priors of LLMs to design libraries of programmatic 3D shape abstractions. Our system accepts two forms of design intent: text descriptions of functions to include in the library and a seed set of exemplar shapes. We discover abstractions that match this design intent with a guided LLM workflow that first proposes, and then validates, different ways of applying and implementing functions. We learn recognition networks that map shapes to programs with these newly discovered abstractions by training on data produced by LLM authored synthetic data generation procedures. Across modeling domains (split by shape category), we find that LLMs, when thoughtfully combined with geometric reasoning, can be guided to author a library of abstraction functions that generalize to shapes outside of the seed set. This framework addresses a long-standing shape analysis problem of how to discover reusable abstraction functions while exposing interpretable, semantically aligned interfaces. We find that ShapeLib provides distinct advantages over prior alternative abstraction discovery works in terms of generalization, usability, and maintaining plausibility under manipulation. Finally, we demonstrate that ShapeLib's abstraction functions unlock a number of downstream applications, combining LLM reasoning over shape programs with geometry processing to support shape editing and generation.