Agentic Design of Compositional Machines

📄 arXiv: 2510.14980v2 📥 PDF

作者: Wenqian Zhang, Weiyang Liu, Zhen Liu

分类: cs.AI, cs.CL, cs.CV, cs.GR, cs.LG

发布日期: 2025-10-16 (更新: 2025-10-19)

备注: 75 pages, 31 figures, Project Page: https://besiegefield.github.io


💡 一句话要点

提出BesiegeField测试平台,研究LLM在组合机器设计中的Agentic能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合机器设计 大型语言模型 Agentic工作流 强化学习 物理模拟 BesiegeField 代码生成 机器人设计

📋 核心要点

  1. 现有方法在复杂机器的组合设计上存在不足,尤其是在空间推理和物理环境交互方面。
  2. 论文提出利用大型语言模型(LLM)的Agentic能力,通过编写代码来完成机器设计任务。
  3. 构建了BesiegeField测试平台,并进行了LLM基准测试和强化学习微调实验,探索了语言、机器设计和物理推理的交叉。

📝 摘要(中文)

复杂机器的设计是人类智能的标志,也是工程实践的基础。鉴于大型语言模型(LLM)的最新进展,本文探讨它们是否也能学会创造。研究聚焦于组合机器设计:将机器从标准化组件组装起来,以满足模拟物理环境中的运动或操作等功能需求。机器设计被表示为编写类似XML的代码,明确指定零件之间的连接。为此,本文引入了BesiegeField,一个基于机器建造游戏Besiege的测试平台,支持基于零件的构造、物理模拟和奖励驱动的评估。利用BesiegeField,对最先进的LLM进行了Agentic工作流的基准测试,并确定了成功所需的关键能力,包括空间推理、战略组装和指令遵循。由于当前的开源模型表现不足,本文探索了强化学习(RL)作为改进的途径:整理了一个冷启动数据集,进行了RL微调实验,并强调了语言、机器设计和物理推理交叉领域的开放挑战。

🔬 方法详解

问题定义:论文旨在解决如何利用大型语言模型自动设计满足特定功能的组合机器的问题。现有方法在处理复杂结构、空间关系以及物理环境交互方面存在局限性,难以实现高效且可靠的机器设计。传统方法通常依赖于人工设计或优化算法,效率低下且难以泛化到新的任务和环境。

核心思路:论文的核心思路是将机器设计问题转化为一个代码生成问题,利用LLM的文本生成能力来编写描述机器结构的XML-like代码。通过Agentic工作流,LLM可以迭代地进行设计、模拟和评估,从而逐步优化机器的性能。这种方法的核心在于利用LLM的知识和推理能力,以及物理引擎的模拟能力,实现自动化的机器设计。

技术框架:整体框架包含以下几个主要模块:1) 环境交互模块:BesiegeField测试平台,提供物理模拟和奖励评估;2) LLM Agent:负责生成机器设计代码,并根据环境反馈进行调整;3) 代码解析模块:将LLM生成的代码转化为机器结构;4) 强化学习模块:用于微调LLM,提高其设计能力。流程上,LLM Agent首先根据任务需求生成初始设计,然后通过BesiegeField进行模拟评估,根据评估结果调整设计,重复迭代直至满足要求。

关键创新:论文的关键创新在于将LLM应用于组合机器设计,并构建了BesiegeField测试平台。与传统方法相比,该方法能够利用LLM的知识和推理能力,实现更高效和灵活的机器设计。此外,通过强化学习微调LLM,可以进一步提高其设计能力,使其能够适应更复杂的任务和环境。

关键设计:在LLM Agent的设计上,采用了Agentic工作流,允许LLM进行迭代设计和自我评估。在强化学习方面,论文整理了一个冷启动数据集,用于预训练LLM,并使用奖励函数来指导LLM的学习。具体的网络结构和参数设置在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了BesiegeField测试平台,并对现有LLM进行了基准测试,发现开源模型在空间推理和战略组装方面存在不足。通过强化学习微调,LLM的设计能力得到提升,但仍面临开放挑战。具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于机器人设计、自动化工程、游戏开发等领域。例如,可以利用该方法自动设计适应不同地形的移动机器人,或者设计用于特定任务的机械臂。此外,该研究还可以促进人机协作设计,让人类设计师与AI Agent共同完成复杂机器的设计任务,提高设计效率和创新性。

📄 摘要(原文)

The design of complex machines stands as both a marker of human intelligence and a foundation of engineering practice. Given recent advances in large language models (LLMs), we ask whether they, too, can learn to create. We approach this question through the lens of compositional machine design: a task in which machines are assembled from standardized components to meet functional demands like locomotion or manipulation in a simulated physical environment. With this simplification, machine design is expressed as writing XML-like code that explicitly specifies pairwise part connections. To support this investigation, we introduce BesiegeField, a testbed built on the machine-building game Besiege, which enables part-based construction, physical simulation and reward-driven evaluation. Using BesiegeField, we benchmark state-of-the-art LLMs with agentic workflows and identify key capabilities required for success, including spatial reasoning, strategic assembly, and instruction-following. As current open-source models fall short, we explore reinforcement learning (RL) as a path to improvement: we curate a cold-start dataset, conduct RL finetuning experiments, and highlight open challenges at the intersection of language, machine design, and physical reasoning.