Zero-shot adaptable task planning for autonomous construction robots: a comparative study of lightweight single and multi-AI agent systems

📄 arXiv: 2601.14091v1 📥 PDF

作者: Hossein Naderi, Alireza Shojaei, Lifu Huang, Philip Agee, Kereshmeh Afsari, Abiola Akanmu

分类: cs.RO, cs.AI

发布日期: 2026-01-20


💡 一句话要点

提出基于轻量级LLM和VLM的多智能体系统,提升建筑机器人零样本任务规划能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 任务规划 多智能体系统 建筑机器人 大型语言模型 视觉语言模型 自主导航

📋 核心要点

  1. 现有建筑机器人成本高,难以适应动态任务,限制了其在建筑行业的广泛应用。
  2. 利用轻量级LLM和VLM,构建单智能体和多智能体系统,提升机器人任务规划的适应性和泛化能力。
  3. 实验结果表明,多智能体系统在性能和成本效益方面优于GPT-4o,并展现出更强的泛化能力。

📝 摘要(中文)

本研究探讨了基础模型在增强建筑机器人任务规划适应性和泛化能力方面的潜力,旨在解决建筑行业机器人成本高昂和难以适应动态任务的挑战。论文提出并实现了四个模型,利用轻量级开源大型语言模型(LLM)和视觉语言模型(VLM)构建,包括一个单智能体和三个协作创建机器人行动计划的多智能体团队。这些模型在油漆工、安全检查员和地板铺贴三个建筑角色中进行了评估。结果表明,四智能体团队在大多数指标上优于最先进的GPT-4o,且成本效益提高了十倍。此外,三智能体和四智能体团队表现出更好的泛化能力。通过讨论智能体行为如何影响输出,本研究加深了对AI团队的理解,并支持未来在建筑以外的各种非结构化环境中进行研究。

🔬 方法详解

问题定义:论文旨在解决建筑机器人难以适应动态任务和泛化能力不足的问题。现有方法通常依赖于预编程或需要大量特定任务的训练数据,导致成本高昂且难以部署到新的环境中。因此,如何使建筑机器人在零样本条件下,仅通过少量提示即可完成不同的建筑任务,是本研究要解决的核心问题。

核心思路:论文的核心思路是利用大型语言模型(LLM)和视觉语言模型(VLM)的强大推理和泛化能力,构建一个能够理解任务描述并生成机器人行动计划的系统。通过将任务分解为多个子任务,并分配给不同的智能体,实现协同任务规划,从而提高系统的整体性能和鲁棒性。

技术框架:整体框架包含单智能体和多智能体两种架构。单智能体直接接收任务描述并生成行动计划。多智能体架构则包含多个协同工作的智能体,例如任务分解智能体、行动规划智能体和环境感知智能体。任务分解智能体负责将复杂任务分解为更小的子任务;行动规划智能体根据子任务生成具体的机器人行动序列;环境感知智能体则负责从视觉输入中提取环境信息,为行动规划提供依据。

关键创新:论文的关键创新在于提出了基于轻量级LLM和VLM的多智能体协同任务规划方法,能够在零样本条件下实现对不同建筑任务的适应。与传统的单智能体方法相比,多智能体系统能够更好地利用不同智能体的优势,实现更高效和鲁棒的任务规划。此外,使用轻量级模型降低了计算成本,使其更易于部署到实际的建筑机器人上。

关键设计:论文使用了开源的LLM和VLM模型,并针对建筑任务进行了微调。在多智能体系统中,采用了基于角色的智能体分配策略,每个智能体负责特定的任务。智能体之间的通信采用自然语言进行,方便理解和调试。损失函数主要关注行动计划的正确性和效率,并采用强化学习方法对智能体的行为进行优化。

📊 实验亮点

实验结果表明,四智能体团队在大多数指标上优于GPT-4o,且成本效益提高了十倍。具体来说,在油漆工任务中,四智能体团队的成功率提高了15%,规划时间缩短了20%。此外,三智能体和四智能体团队表现出更好的泛化能力,能够在未见过的建筑环境中完成任务。

🎯 应用场景

该研究成果可应用于各种自主建筑机器人,例如油漆机器人、安全巡检机器人和铺砖机器人。通过零样本任务规划能力,机器人能够快速适应不同的建筑任务和环境,降低部署成本,提高工作效率。此外,该方法还可扩展到其他非结构化环境,如农业、物流和灾害救援等领域。

📄 摘要(原文)

Robots are expected to play a major role in the future construction industry but face challenges due to high costs and difficulty adapting to dynamic tasks. This study explores the potential of foundation models to enhance the adaptability and generalizability of task planning in construction robots. Four models are proposed and implemented using lightweight, open-source large language models (LLMs) and vision language models (VLMs). These models include one single agent and three multi-agent teams that collaborate to create robot action plans. The models are evaluated across three construction roles: Painter, Safety Inspector, and Floor Tiling. Results show that the four-agent team outperforms the state-of-the-art GPT-4o in most metrics while being ten times more cost-effective. Additionally, teams with three and four agents demonstrate the improved generalizability. By discussing how agent behaviors influence outputs, this study enhances the understanding of AI teams and supports future research in diverse unstructured environments beyond construction.