ParSEL: Parameterized Shape Editing with Language

📄 arXiv: 2405.20319v2 📥 PDF

作者: Aditya Ganeshan, Ryan Y. Huang, Xianghao Xu, R. Kenny Jones, Daniel Ritchie

分类: cs.CV, cs.AI, cs.GR, cs.HC, cs.SC

发布日期: 2024-05-30 (更新: 2024-05-31)


💡 一句话要点

ParSEL:提出一种基于语言的参数化形状编辑方法,实现对3D资产的可控编辑。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 自然语言处理 3D模型编辑 参数化建模 大型语言模型 几何分析

📋 核心要点

  1. 现有方法难以通过自然语言精确控制3D资产的编辑,导致编辑结果不够精细和可控。
  2. ParSEL通过生成参数化的编辑程序,允许用户调整参数来精确控制编辑的幅度,从而实现可控编辑。
  3. 实验表明,ParSEL在通过自然语言请求编辑3D对象方面,相比其他系统设计具有显著优势。

📝 摘要(中文)

本文提出了一种名为ParSEL的系统,旨在通过自然语言实现对高质量3D资产的可控编辑,从而助力3D内容创作的普及。虽然自然语言在传达总体意图方面表现出色,但在精确操控方面存在不足。ParSEL通过生成参数化的编辑程序来解决这一问题。用户可以通过调整程序参数,精确控制编辑幅度,探索形状变化。为了推断与输入编辑请求相符的编辑程序,我们利用了大型语言模型(LLM)的能力。然而,LLM虽然擅长识别初始编辑操作,但常常无法推断完整的编辑程序,并可能产生违反形状语义的输出。为了解决这个问题,我们引入了分析编辑传播(AEP)算法,该算法通过集成计算机代数系统进行几何分析,扩展种子编辑操作,直至形成完整的编辑程序。实验结果表明,ParSEL在通过自然语言请求实现3D对象的可控编辑方面优于其他系统设计。

🔬 方法详解

问题定义:现有方法在利用自然语言编辑3D模型时,难以实现精确控制,用户无法方便地调整编辑的程度和范围。大型语言模型(LLM)虽然可以理解用户的编辑意图,但直接生成完整的、符合几何约束的编辑指令仍然具有挑战性,容易产生不符合预期的结果。

核心思路:ParSEL的核心思路是将自然语言编辑请求转化为参数化的编辑程序。用户可以通过调整这些参数,精确控制编辑的幅度,从而实现对3D模型的精细调整。此外,ParSEL引入了分析编辑传播(AEP)算法,以解决LLM生成不完整或不符合几何约束的编辑程序的问题。

技术框架:ParSEL系统主要包含以下几个模块:1) 接收用户输入的自然语言编辑请求和3D模型;2) 利用LLM识别初始的编辑操作(种子编辑);3) 使用AEP算法,基于种子编辑,通过计算机代数系统进行几何分析,自动扩展编辑操作,直至形成完整的参数化编辑程序;4) 用户可以通过调整编辑程序的参数,预览和调整编辑效果;5) 生成最终的编辑后的3D模型。

关键创新:ParSEL的关键创新在于分析编辑传播(AEP)算法。AEP算法不同于以往的方法,它不是简单地依赖LLM生成完整的编辑程序,而是通过计算机代数系统对几何约束进行分析,自动扩展种子编辑操作,确保生成的编辑程序既符合用户的编辑意图,又满足几何约束。

关键设计:AEP算法的关键设计在于如何利用计算机代数系统进行几何分析,以确定哪些编辑操作可以与种子编辑操作兼容,并能够有效地扩展编辑程序。具体来说,AEP算法会搜索与种子编辑操作相关的几何约束,并利用这些约束来推断新的编辑操作。此外,ParSEL还可能包含一些参数化的编辑操作库,例如平移、旋转、缩放等,这些操作可以被AEP算法调用,以生成最终的编辑程序。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ParSEL通过实验验证了其有效性,证明了其在通过自然语言请求实现3D对象的可控编辑方面优于其他系统设计。具体性能数据和对比基线在论文中进行了详细描述,表明ParSEL能够生成更符合用户意图且几何上更合理的编辑结果。AEP算法的引入显著提升了编辑程序的完整性和准确性。

🎯 应用场景

ParSEL具有广泛的应用前景,可以应用于游戏开发、电影制作、工业设计、建筑设计等领域。它降低了3D内容创作的门槛,使得非专业人士也能通过自然语言轻松编辑3D模型,从而加速3D内容的生产和普及。未来,ParSEL可以与虚拟现实、增强现实等技术结合,为用户提供更加沉浸式的3D编辑体验。

📄 摘要(原文)

The ability to edit 3D assets from natural language presents a compelling paradigm to aid in the democratization of 3D content creation. However, while natural language is often effective at communicating general intent, it is poorly suited for specifying precise manipulation. To address this gap, we introduce ParSEL, a system that enables controllable editing of high-quality 3D assets from natural language. Given a segmented 3D mesh and an editing request, ParSEL produces a parameterized editing program. Adjusting the program parameters allows users to explore shape variations with a precise control over the magnitudes of edits. To infer editing programs which align with an input edit request, we leverage the abilities of large-language models (LLMs). However, while we find that LLMs excel at identifying initial edit operations, they often fail to infer complete editing programs, and produce outputs that violate shape semantics. To overcome this issue, we introduce Analytical Edit Propagation (AEP), an algorithm which extends a seed edit with additional operations until a complete editing program has been formed. Unlike prior methods, AEP searches for analytical editing operations compatible with a range of possible user edits through the integration of computer algebra systems for geometric analysis. Experimentally we demonstrate ParSEL's effectiveness in enabling controllable editing of 3D objects through natural language requests over alternative system designs.