Human-in-the-Loop: Quantitative Evaluation of 3D Models Generation by Large Language Models

📄 arXiv: 2509.07010v1 📥 PDF

作者: Ahmed R. Sadik, Mariusz Bujny

分类: cs.CV, cs.AI, cs.ET

发布日期: 2025-09-06


💡 一句话要点

提出人机闭环框架,量化评估大语言模型生成3D模型质量,加速CAD设计。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 3D模型生成 人机闭环 定量评估 CAD设计

📋 核心要点

  1. 现有方法缺乏对LLM生成3D模型几何和结构保真度的有效评估手段,阻碍了其在CAD领域的应用。
  2. 提出人机闭环框架,通过量化指标评估LLM生成的3D模型,并利用人工干预优化生成过程。
  3. 实验表明,该框架能有效评估不同输入模态下LLM的3D模型生成质量,并加速收敛到真实CAD模型。

📝 摘要(中文)

本文提出了一种人机闭环框架,用于定量评估大语言模型生成3D模型的几何和结构保真度。该框架支持CAD设计的普及化、传统设计的逆向工程和快速原型设计等应用。论文提出了一套全面的相似性和复杂度指标,包括体积精度、表面对齐、尺寸保真度和拓扑复杂性,用于将生成的模型与真实CAD参考模型进行基准测试。以L型支架组件为例,系统地比较了LLM在四种输入模态下的性能:2D正交视图、等距草图、几何结构树和基于代码的校正提示。研究结果表明,随着语义丰富度的增加,生成保真度得到提高,代码级别的提示在所有指标上都实现了完美的重建。该工作的主要贡献在于证明了所提出的定量评估方法能够显著加快收敛到真实值的速度,特别是与仅基于视觉检查和人类直觉的传统定性方法相比。这项工作不仅加深了对AI辅助形状合成的理解,而且为验证和改进各种CAD应用的生成模型提供了一种可扩展的方法。

🔬 方法详解

问题定义:论文旨在解决如何定量评估大型语言模型(LLM)生成的3D模型的质量问题。现有方法主要依赖人工视觉检查,主观且效率低下,难以准确衡量生成模型的几何和结构保真度,阻碍了LLM在CAD设计、逆向工程等领域的应用。

核心思路:论文的核心思路是构建一个人机闭环的定量评估框架,通过定义一系列几何和结构相似性指标,将LLM生成的3D模型与ground truth CAD模型进行对比,并结合人工反馈进行优化。这种方法旨在提供客观、高效的评估手段,加速LLM生成模型的迭代改进。

技术框架:该框架包含以下主要模块:1) LLM 3D模型生成模块,接收不同模态的输入(如2D视图、草图、结构树、代码提示),生成3D模型;2) 定量评估模块,计算生成模型与ground truth之间的体积精度、表面对齐、尺寸保真度和拓扑复杂性等指标;3) 人工干预模块,根据评估结果,人工调整输入或模型参数,优化生成结果;4) 迭代优化模块,重复上述过程,直至生成模型达到预期的质量标准。

关键创新:该论文的关键创新在于提出了一个综合性的定量评估体系,能够客观、全面地衡量LLM生成3D模型的质量。与传统的定性评估方法相比,该方法能够显著提高评估效率和准确性,并为LLM生成模型的优化提供明确的指导。此外,人机闭环的设计能够有效利用人工经验,加速模型收敛。

关键设计:论文中关键的设计包括:1) 相似性指标的选择,需要能够准确反映生成模型与ground truth之间的差异;2) 人工干预策略的设计,需要能够有效地指导模型优化;3) 实验案例的选择,L型支架组件具有一定的复杂性,能够有效评估不同输入模态下的LLM性能。具体参数设置和损失函数未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,随着输入语义丰富度的增加,LLM生成3D模型的保真度得到提高。基于代码级别的提示,LLM在所有评估指标上都实现了完美的重建。与传统的定性评估方法相比,该框架能够显著加快收敛到真实CAD模型的速度,具体提升幅度未知。

🎯 应用场景

该研究成果可应用于CAD设计的普及化,降低设计门槛;在逆向工程中,可快速重建现有产品模型;在快速原型设计中,可加速产品迭代过程。此外,该框架还可用于评估和优化其他类型的生成模型,具有广泛的应用前景。

📄 摘要(原文)

Large Language Models are increasingly capable of interpreting multimodal inputs to generate complex 3D shapes, yet robust methods to evaluate geometric and structural fidelity remain underdeveloped. This paper introduces a human in the loop framework for the quantitative evaluation of LLM generated 3D models, supporting applications such as democratization of CAD design, reverse engineering of legacy designs, and rapid prototyping. We propose a comprehensive suite of similarity and complexity metrics, including volumetric accuracy, surface alignment, dimensional fidelity, and topological intricacy, to benchmark generated models against ground truth CAD references. Using an L bracket component as a case study, we systematically compare LLM performance across four input modalities: 2D orthographic views, isometric sketches, geometric structure trees, and code based correction prompts. Our findings demonstrate improved generation fidelity with increased semantic richness, with code level prompts achieving perfect reconstruction across all metrics. A key contribution of this work is demonstrating that our proposed quantitative evaluation approach enables significantly faster convergence toward the ground truth, especially compared to traditional qualitative methods based solely on visual inspection and human intuition. This work not only advances the understanding of AI assisted shape synthesis but also provides a scalable methodology to validate and refine generative models for diverse CAD applications.