Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models
作者: Siddharth Srikanth, Varun Bhatt, Boshen Zhang, Werner Hager, Charles Michael Lewis, Katia P. Sycara, Aaquib Tabrez, Stefanos Nikolaidis
分类: cs.CL, cs.AI, cs.HC, cs.MA
发布日期: 2025-04-04
💡 一句话要点
提出基于质量多样性优化LLM提示的算法,用于生成多样化类人团队协作行为
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 质量多样性 人机协作 多智能体系统 提示工程
📋 核心要点
- 现有方法依赖大规模用户研究获取人类协作数据,但存在后勤、伦理和实践限制,难以获取足够多样性。
- 论文结合质量多样性优化与大型语言模型,迭代搜索生成多样化团队行为的提示,模拟类人协作。
- 实验表明该方法能有效复制人类团队数据趋势,并捕获不易观察的行为,为研究团队协作提供有效工具。
📝 摘要(中文)
理解人类在团队中的协作和沟通方式对于改进人机协作和AI辅助决策至关重要。然而,由于后勤、伦理和实践限制,仅仅依赖大规模用户研究的数据是不切实际的,因此需要多种多样的人类行为的合成模型。最近,由大型语言模型(LLM)驱动的智能体已显示出在社交环境中模拟类人行为的能力。但是,获得大量多样化行为需要手动设计提示。另一方面,质量多样性(QD)优化已显示出能够生成多样化的强化学习(RL)智能体行为。在这项工作中,我们将QD优化与LLM驱动的智能体相结合,以迭代搜索在长期、多步骤协作环境中生成多样化团队行为的提示。我们首先通过人类受试者实验(n=54名参与者)表明,人类在该领域表现出多样化的协调和沟通行为。然后,我们表明,我们的方法可以有效地复制人类团队数据的趋势,并捕获在没有收集大量数据的情况下不易观察到的行为。我们的发现强调了QD和LLM驱动的智能体的结合是研究多智能体协作中团队协作和沟通策略的有效工具。
🔬 方法详解
问题定义:论文旨在解决如何高效生成多样化、类人团队协作行为的问题。现有方法主要依赖人工设计提示或大规模用户研究,前者效率低且难以覆盖所有行为模式,后者则面临伦理、成本和可行性挑战。因此,需要一种自动化的方法,能够生成多样化的提示,引导LLM智能体模拟各种人类协作行为。
核心思路:论文的核心思路是将质量多样性(QD)优化算法与LLM驱动的智能体相结合。QD优化算法擅长在搜索空间中寻找多样化的解决方案,而LLM智能体则具备模拟人类行为的能力。通过QD优化,可以自动生成一系列不同的提示,这些提示能够引导LLM智能体产生各种各样的团队协作行为。
技术框架:整体框架包含以下几个主要模块:1) LLM智能体:使用LLM作为智能体的决策引擎,通过提示控制其行为。2) 协作环境:设计一个多智能体协作环境,用于评估不同提示下的团队行为。3) 质量多样性优化器:使用QD优化算法搜索能够产生多样化团队行为的提示。4) 行为特征提取器:提取团队行为的特征,用于评估QD优化算法的效果。整个流程是迭代的:QD优化器生成新的提示,LLM智能体在协作环境中执行任务,行为特征提取器评估团队行为,QD优化器根据评估结果更新提示。
关键创新:最重要的技术创新点在于将QD优化算法与LLM智能体相结合,实现自动生成多样化团队协作行为。与传统方法相比,该方法无需人工设计提示,能够自动探索更广泛的行为空间,并发现一些不易观察到的行为模式。
关键设计:论文的关键设计包括:1) 提示的设计:提示需要能够有效地引导LLM智能体进行协作,例如,可以包含角色描述、目标、约束等信息。2) 行为特征的提取:需要选择合适的行为特征来评估团队行为的多样性,例如,可以包括沟通频率、任务完成率、资源分配策略等。3) QD优化算法的选择:需要选择适合该问题的QD优化算法,例如,MAP-Elites算法。
🖼️ 关键图片
📊 实验亮点
论文通过人类受试者实验(n=54)验证了人类在协作环境中表现出多样化的行为。实验结果表明,该方法能够有效地复制人类团队数据的趋势,并捕获在没有收集大量数据的情况下不易观察到的行为。这表明该方法具有很强的泛化能力和实用价值。
🎯 应用场景
该研究成果可应用于人机协作系统设计、AI辅助决策、社交机器人开发等领域。通过模拟不同的人类协作行为,可以更好地理解人类团队的运作机制,从而设计更有效的人机协作界面和算法。此外,该方法还可以用于训练社交机器人,使其能够更好地与人类进行互动和协作,例如在教育、医疗等领域提供个性化服务。
📄 摘要(原文)
Understanding how humans collaborate and communicate in teams is essential for improving human-agent teaming and AI-assisted decision-making. However, relying solely on data from large-scale user studies is impractical due to logistical, ethical, and practical constraints, necessitating synthetic models of multiple diverse human behaviors. Recently, agents powered by Large Language Models (LLMs) have been shown to emulate human-like behavior in social settings. But, obtaining a large set of diverse behaviors requires manual effort in the form of designing prompts. On the other hand, Quality Diversity (QD) optimization has been shown to be capable of generating diverse Reinforcement Learning (RL) agent behavior. In this work, we combine QD optimization with LLM-powered agents to iteratively search for prompts that generate diverse team behavior in a long-horizon, multi-step collaborative environment. We first show, through a human-subjects experiment (n=54 participants), that humans exhibit diverse coordination and communication behavior in this domain. We then show that our approach can effectively replicate trends from human teaming data and also capture behaviors that are not easily observed without collecting large amounts of data. Our findings highlight the combination of QD and LLM-powered agents as an effective tool for studying teaming and communication strategies in multi-agent collaboration.