SceneGenAgent: Precise Industrial Scene Generation with Coding Agent
作者: Xiao Xia, Dan Zhang, Zibo Liao, Zhenyu Hou, Tianrui Sun, Jing Li, Ling Fu, Yuxiao Dong
分类: cs.CL, cs.LG, cs.SE
发布日期: 2024-10-29 (更新: 2025-06-26)
备注: Accepted to ACL 2025
🔗 代码/项目: GITHUB
💡 一句话要点
SceneGenAgent:基于代码生成精确工业场景,解决LLM在工业场景应用的难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工业场景生成 大型语言模型 代码生成 场景布局 工业仿真
📋 核心要点
- 现有LLM在生成工业场景时,难以满足工业场景对精确测量和空间布局的严格要求。
- SceneGenAgent通过LLM生成C#代码来精确控制工业场景的布局,并通过验证和迭代优化来满足定量需求。
- 实验表明,SceneGenAgent显著提升了LLM在工业场景生成任务中的成功率,并构建了SceneInstruct数据集用于微调开源LLM。
📝 摘要(中文)
工业场景建模对于工业制造中的仿真至关重要。虽然大型语言模型(LLM)在从文本描述生成通用3D场景方面取得了显著进展,但由于工业场景对精确测量和定位的需求,以及对空间排列的复杂规划,使用LLM生成工业场景面临着独特的挑战。为了解决这个问题,我们提出了SceneGenAgent,一个基于LLM的Agent,通过C#代码生成工业场景。SceneGenAgent通过结构化和可计算的格式、布局验证和迭代细化来确保精确的布局规划,以满足工业场景的定量要求。实验结果表明,由SceneGenAgent驱动的LLM超过了其原始性能,在真实工业场景生成任务中达到了高达81.0%的成功率,并有效地满足了大多数场景生成要求。为了进一步提高可访问性,我们构建了SceneInstruct数据集,旨在对开源LLM进行微调,以集成到SceneGenAgent中。实验表明,在SceneInstruct上微调开源LLM可以显著提高性能,其中Llama3.1-70B的性能接近GPT-4o。我们的代码和数据可在https://github.com/THUDM/SceneGenAgent 获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在生成工业场景时面临的挑战。现有方法难以满足工业场景对精确测量、精确定位和复杂空间排列的严格要求,导致生成结果不准确,无法直接应用于工业仿真等领域。现有方法缺乏对场景布局的精确控制和验证机制,难以保证生成结果的质量和可靠性。
核心思路:论文的核心思路是利用LLM生成可执行的C#代码来精确控制工业场景的布局和细节。通过将场景生成过程转化为代码编写过程,可以利用代码的结构化和可计算性来保证场景的精确性和一致性。同时,通过布局验证和迭代细化,可以不断优化生成结果,使其满足工业场景的定量要求。
技术框架:SceneGenAgent的整体框架包括以下几个主要模块:1) LLM代码生成器:利用LLM根据文本描述生成C#代码,该代码负责创建和布局工业场景中的各种对象。2) 代码执行器:执行生成的C#代码,在3D环境中创建场景。3) 布局验证器:对生成的场景进行验证,检查是否满足预定义的定量要求,例如对象之间的距离、角度等。4) 迭代优化器:根据布局验证的结果,对C#代码进行修改和优化,以提高场景的质量和精度。
关键创新:论文最重要的技术创新点在于将LLM与代码生成相结合,用于精确控制工业场景的生成。与直接生成3D模型相比,通过生成代码可以实现更精细的控制和更强的可解释性。此外,论文提出的布局验证和迭代优化机制可以有效地提高生成结果的质量和可靠性。
关键设计:SceneGenAgent使用LLM(如GPT-4o或Llama3.1-70B)作为代码生成器,并使用C#作为编程语言。布局验证器根据工业场景的特定要求定义了一系列定量指标,例如对象之间的距离、角度、尺寸等。迭代优化器使用基于规则或基于学习的方法来修改C#代码,以满足布局验证的要求。SceneInstruct数据集用于微调开源LLM,使其更擅长生成工业场景相关的C#代码。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SceneGenAgent显著提高了LLM在工业场景生成任务中的成功率,达到了81.0%。在SceneInstruct数据集上微调开源LLM后,Llama3.1-70B的性能接近GPT-4o,表明该方法具有良好的泛化能力和可扩展性。这些结果验证了SceneGenAgent的有效性和优越性。
🎯 应用场景
SceneGenAgent可应用于工业仿真、机器人训练、虚拟工厂设计等领域。通过自动生成精确的工业场景,可以降低仿真成本,提高仿真效率,并为机器人和AI算法提供更逼真的训练环境。该研究的成果有助于推动工业智能化和自动化发展,并为相关领域的研究提供新的思路和方法。
📄 摘要(原文)
The modeling of industrial scenes is essential for simulations in industrial manufacturing. While large language models (LLMs) have shown significant progress in generating general 3D scenes from textual descriptions, generating industrial scenes with LLMs poses a unique challenge due to their demand for precise measurements and positioning, requiring complex planning over spatial arrangement. To address this challenge, we introduce SceneGenAgent, an LLM-based agent for generating industrial scenes through C# code. SceneGenAgent ensures precise layout planning through a structured and calculable format, layout verification, and iterative refinement to meet the quantitative requirements of industrial scenarios. Experiment results demonstrate that LLMs powered by SceneGenAgent exceed their original performance, reaching up to 81.0% success rate in real-world industrial scene generation tasks and effectively meeting most scene generation requirements. To further enhance accessibility, we construct SceneInstruct, a dataset designed for fine-tuning open-source LLMs to integrate into SceneGenAgent. Experiments show that fine-tuning open-source LLMs on SceneInstruct yields significant performance improvements, with Llama3.1-70B approaching the capabilities of GPT-4o. Our code and data are available at https://github.com/THUDM/SceneGenAgent .