LLM-Driven 3D Scene Generation of Agricultural Simulation Environments
作者: Arafa Yoncalik, Wouter Jansen, Nico Huebel, Mohammad Hasan Rahmani, Jan Steckel
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-02-12
备注: Accepted at IEEE Conference on Artificial Intelligence 2026
💡 一句话要点
提出基于LLM的模块化流程,用于生成农业模拟环境的3D场景
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D场景生成 大型语言模型 农业模拟 领域知识 模块化设计
📋 核心要点
- 现有3D场景生成方法依赖手动设计,或缺乏领域知识、验证机制和模块化设计,导致控制力不足和可扩展性差。
- 提出一种模块化的多LLM流程,通过集成3D资产检索、领域知识注入和代码生成,实现农业模拟环境的自动生成。
- 实验结果表明,该方法能够生成逼真的农业场景,显著节省了人工设计时间,并提高了生成结果的可靠性和精度。
📝 摘要(中文)
本文研究利用大型语言模型(LLM)从自然语言提示中生成农业合成模拟环境,旨在解决缺乏领域特定推理、验证机制和模块化设计等局限性。开发了一个模块化的多LLM流程,集成了3D资产检索、领域知识注入和Unreal渲染引擎的代码生成。该系统基于输入提示和领域知识,生成具有逼真种植布局和环境背景的3D环境。为了提高准确性和可扩展性,该系统采用混合策略,结合了少样本提示、检索增强生成(RAG)、微调和验证等LLM优化技术。与单体模型不同,模块化架构支持结构化数据处理、中间验证和灵活扩展。通过结构化提示和语义准确性指标评估了该系统。用户研究评估了其相对于真实世界图像的真实感和熟悉度,专家比较表明,与手动场景设计相比,该系统显著节省了时间。结果证实了多LLM流程在自动化领域特定3D场景生成方面的有效性,并提高了可靠性和精度。未来的工作将探索扩展资产层级、整合实时生成,以及将该流程应用于农业以外的其他模拟领域。
🔬 方法详解
问题定义:现有3D场景生成方法在农业等特定领域存在不足。手动设计耗时耗力,而基于通用LLM的方法缺乏领域知识,难以生成准确、逼真的场景。此外,缺乏验证机制和模块化设计限制了系统的可扩展性和可靠性。
核心思路:利用LLM的自然语言理解和生成能力,结合领域知识和模块化设计,构建一个自动化的3D场景生成流程。通过将复杂任务分解为多个模块,并引入验证机制,提高生成结果的准确性和可靠性。
技术框架:该系统采用模块化的多LLM流程,主要包含以下模块:1) 3D资产检索模块,根据自然语言提示检索相关的3D模型;2) 领域知识注入模块,将农业领域的知识融入LLM的生成过程中;3) 代码生成模块,利用Unreal引擎的API生成3D场景的代码。这些模块协同工作,最终生成具有逼真种植布局和环境背景的3D农业场景。
关键创新:该方法的核心创新在于将LLM与领域知识和模块化设计相结合。通过领域知识注入,提高了LLM生成特定领域场景的准确性。模块化设计使得系统更易于扩展和维护,并允许在不同模块中引入验证机制,提高生成结果的可靠性。
关键设计:为了提高LLM的生成质量,该方法采用了多种优化技术,包括少样本提示、检索增强生成(RAG)和微调。少样本提示通过提供少量示例,引导LLM生成更符合要求的场景。RAG通过检索相关的知识,增强LLM的生成能力。微调则针对特定领域的数据,对LLM进行训练,提高其生成特定领域场景的准确性。此外,该系统还引入了验证机制,对生成结果进行检查,确保其符合领域知识和用户需求。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够生成逼真的农业场景,用户研究表明其真实感和熟悉度与真实世界图像相当。专家比较表明,与手动场景设计相比,该系统显著节省了时间。此外,该方法还采用了多种LLM优化技术,包括少样本提示、检索增强生成(RAG)和微调,提高了生成结果的准确性和可靠性。
🎯 应用场景
该研究成果可应用于农业模拟、虚拟现实培训、游戏开发等领域。通过自动生成逼真的农业场景,可以降低开发成本,提高开发效率。此外,该方法还可以扩展到其他领域,如城市规划、环境模拟等,具有广泛的应用前景。
📄 摘要(原文)
Procedural generation techniques in 3D rendering engines have revolutionized the creation of complex environments, reducing reliance on manual design. Recent approaches using Large Language Models (LLMs) for 3D scene generation show promise but often lack domain-specific reasoning, verification mechanisms, and modular design. These limitations lead to reduced control and poor scalability. This paper investigates the use of LLMs to generate agricultural synthetic simulation environments from natural language prompts, specifically to address the limitations of lacking domain-specific reasoning, verification mechanisms, and modular design. A modular multi-LLM pipeline was developed, integrating 3D asset retrieval, domain knowledge injection, and code generation for the Unreal rendering engine using its API. This results in a 3D environment with realistic planting layouts and environmental context, all based on the input prompt and the domain knowledge. To enhance accuracy and scalability, the system employs a hybrid strategy combining LLM optimization techniques such as few-shot prompting, Retrieval-Augmented Generation (RAG), finetuning, and validation. Unlike monolithic models, the modular architecture enables structured data handling, intermediate verification, and flexible expansion. The system was evaluated using structured prompts and semantic accuracy metrics. A user study assessed realism and familiarity against real-world images, while an expert comparison demonstrated significant time savings over manual scene design. The results confirm the effectiveness of multi-LLM pipelines in automating domain-specific 3D scene generation with improved reliability and precision. Future work will explore expanding the asset hierarchy, incorporating real-time generation, and adapting the pipeline to other simulation domains beyond agriculture.