Improving Cooperation in Collaborative Embodied AI
作者: Hima Jacob Leven Suprabha, Laxmi Nag Laxminarayan Nagesh, Ajith Nair, Alvin Reuben Amal Selvaster, Ayan Khan, Raghuram Damarla, Sanju Hannah Samuel, Sreenithi Saravana Perumal, Titouan Puech, Venkataramireddy Marella, Vishal Sonar, Alessandro Suglia, Oliver Lemon
分类: cs.AI, cs.MA, cs.RO
发布日期: 2025-10-03
备注: In proceedings of UKCI 2025
💡 一句话要点
通过提示工程优化,提升具身AI协作环境中的智能体合作性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体协作 大型语言模型 提示工程 具身智能 CoELA框架
📋 核心要点
- 现有具身AI协作框架在智能体间通信和任务协调方面存在效率瓶颈,尤其是在复杂环境中。
- 论文提出通过优化提示工程策略,改进大型语言模型在多智能体协作中的应用,提升决策和协作效率。
- 实验结果表明,优化的提示策略能显著提升智能体协作性能,例如Gemma3系统的效率提升了22%。
📝 摘要(中文)
本文研究了将大型语言模型(LLMs)集成到多智能体系统中,以实现协作推理和智能体合作的新方法。论文探索了不同的提示方法,并评估了它们在增强智能体协作行为和决策方面的有效性。研究改进了CoELA框架,该框架旨在构建协作式具身智能体,利用LLMs进行多智能体通信、推理和在共享虚拟空间中的任务协调。通过系统的实验,研究人员检验了不同的LLMs和提示工程策略,以确定最大化协作性能的优化组合。此外,研究还集成了语音功能,实现了无缝的基于语音的协作交互。研究结果表明,提示优化能有效提升协作智能体的性能;例如,最佳组合使Gemma3系统的效率提高了22%,并且语音集成提供了一个更具吸引力的用户界面,用于迭代系统开发和演示。
🔬 方法详解
问题定义:论文旨在解决多智能体协作环境中,如何有效利用大型语言模型(LLMs)提升智能体间的通信、推理和任务协调效率的问题。现有方法,如原始的CoELA框架,在复杂任务和动态环境中,智能体间的协作效率和决策质量仍有提升空间,提示工程的优化不足是主要痛点。
核心思路:论文的核心思路是通过优化LLMs的提示(Prompt Engineering),引导LLMs更好地理解任务目标、智能体角色和协作策略,从而提升智能体的协作能力和决策质量。通过精心设计的提示,LLMs能够更有效地进行信息交换、意图识别和行动规划,最终实现更高效的协作。
技术框架:论文基于CoELA框架进行改进,CoELA框架包含以下主要模块:1) 环境模拟器:模拟智能体所处的虚拟环境;2) LLM推理引擎:负责智能体的推理、决策和通信;3) 智能体控制器:控制智能体的行动。论文主要在LLM推理引擎部分进行改进,通过优化提示策略,提升LLM的推理和决策能力。整体流程为:智能体观察环境 -> LLM根据提示生成行动指令 -> 智能体执行行动 -> 环境更新 -> 循环。
关键创新:论文的关键创新在于系统性地探索和优化了LLMs在多智能体协作中的提示策略。与以往研究不同,本文不仅关注LLM本身的选择,更侧重于如何通过提示工程,充分发挥LLM在协作环境中的潜力。通过对比不同的提示方法,论文找到了最适合特定任务和LLM的提示组合,从而显著提升了协作性能。
关键设计:论文的关键设计包括:1) 提示模板的设计:设计不同的提示模板,包括任务描述、角色定义、协作策略等;2) 提示词的选择:选择合适的提示词,引导LLM进行有效的推理和决策;3) 提示组合的优化:通过实验,找到最佳的提示组合,最大化协作性能。具体参数设置和损失函数未知,网络结构取决于所使用的LLM。
📊 实验亮点
实验结果表明,通过优化提示工程,可以显著提升CoELA框架的协作性能。例如,使用最佳提示组合,Gemma3系统的效率提高了22%。此外,集成的语音交互功能,为用户提供了一种更直观、更便捷的交互方式,加速了系统的迭代开发和演示过程。这些结果验证了提示优化在提升多智能体协作效率方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要多智能体协作的场景,例如:协同机器人、自动驾驶车队、智能家居系统、以及需要人机协作的复杂任务。通过优化智能体间的协作效率,可以显著提升系统的整体性能和用户体验,并降低运营成本。未来,该技术有望在工业自动化、智能交通、医疗健康等领域发挥重要作用。
📄 摘要(原文)
The integration of Large Language Models (LLMs) into multiagent systems has opened new possibilities for collaborative reasoning and cooperation with AI agents. This paper explores different prompting methods and evaluates their effectiveness in enhancing agent collaborative behaviour and decision-making. We enhance CoELA, a framework designed for building Collaborative Embodied Agents that leverage LLMs for multi-agent communication, reasoning, and task coordination in shared virtual spaces. Through systematic experimentation, we examine different LLMs and prompt engineering strategies to identify optimised combinations that maximise collaboration performance. Furthermore, we extend our research by integrating speech capabilities, enabling seamless collaborative voice-based interactions. Our findings highlight the effectiveness of prompt optimisation in enhancing collaborative agent performance; for example, our best combination improved the efficiency of the system running with Gemma3 by 22% compared to the original CoELA system. In addition, the speech integration provides a more engaging user interface for iterative system development and demonstrations.