LLM-Powered Hierarchical Language Agent for Real-time Human-AI Coordination
作者: Jijia Liu, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu, Yu Wang
分类: cs.AI, cs.HC
发布日期: 2023-12-23 (更新: 2024-01-09)
备注: This paper is accpeted by AAMAS 2024. More demonstrations can be seen on our website https://sites.google.com/view/overcooked-hla/
💡 一句话要点
提出基于LLM的分层语言智能体HLA,用于实时人机协作,解决游戏等高交互场景延迟问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机协作 大型语言模型 分层智能体 实时交互 游戏AI
📋 核心要点
- 现有LLM智能体推理延迟高,不适用于游戏等实时交互场景;传统游戏AI交互能力弱,难以实现复杂协作。
- HLA采用分层架构,利用大型LLM进行意图推理,轻量级LLM生成宏观动作,反应式策略执行原子动作,兼顾推理能力和速度。
- 在Overcooked游戏中,HLA在协作能力、响应速度和语言沟通一致性方面优于其他智能体,验证了其有效性。
📝 摘要(中文)
本文提出了一种基于大型语言模型(LLM)的分层语言智能体(HLA),用于解决实时人机协作问题。现有的LLM驱动的智能体通常依赖于调用LLM API和人工设计的复杂提示,导致推理延迟较高,不适用于游戏等高交互和实时应用。传统的游戏AI虽然推理速度快,但任务完成和交互能力有限。本文以Overcooked游戏为测试平台,玩家可以通过自然语言进行交流和合作以完成订单。HLA采用分层框架,包含三个模块:用于意图推理和语言交互的LLM(Slow Mind),用于生成宏观动作的轻量级LLM(Fast Mind),以及用于将宏观动作转换为原子动作的反应式策略(Executor)。人类实验表明,HLA在协作能力、响应速度和语言沟通一致性方面优于其他基线智能体。
🔬 方法详解
问题定义:现有基于LLM的智能体在高交互、实时的场景下,由于需要频繁调用LLM API和使用复杂的prompt,导致推理延迟过高,无法满足实时性要求。而传统的游戏AI虽然速度快,但缺乏高级的推理和语言交互能力,难以实现复杂的人机协作。因此,需要一种既能进行高级推理和语言交互,又能保证实时性的智能体。
核心思路:论文的核心思路是将LLM的能力进行分层,利用大型LLM进行高级的意图推理和语言交互,然后利用轻量级的LLM生成宏观动作,最后使用反应式策略将宏观动作转化为原子动作。通过这种分层的方式,可以在保证推理能力的同时,降低延迟。
技术框架:HLA包含三个主要模块:Slow Mind、Fast Mind和Executor。Slow Mind是一个大型LLM,负责接收玩家的语言指令,进行意图理解和推理,并生成宏观动作的意图。Fast Mind是一个轻量级的LLM,负责将Slow Mind生成的宏观动作意图转化为具体的宏观动作。Executor是一个反应式策略,负责将Fast Mind生成的宏观动作转化为原子动作,控制智能体的具体行为。
关键创新:HLA的关键创新在于其分层架构,将LLM的能力进行解耦,使得大型LLM可以专注于高级推理和语言交互,而轻量级LLM和反应式策略可以负责快速的动作生成和执行。这种分层架构可以在保证推理能力的同时,显著降低延迟,从而满足实时性要求。与现有方法相比,HLA能够在实时性要求高的场景下实现更强的推理和交互能力。
关键设计:Slow Mind和Fast Mind都使用了LLM,但规模不同。Slow Mind使用较大的LLM以保证推理能力,Fast Mind使用较小的LLM以保证速度。Executor使用简单的规则或策略,例如基于状态的有限状态机,以实现快速的动作执行。论文中没有明确说明具体的参数设置、损失函数或网络结构,这些可能是根据具体的LLM和任务进行调整的(未知)。
📊 实验亮点
实验结果表明,HLA在Overcooked游戏中表现出色,与人类玩家的协作能力更强,响应速度更快,语言沟通更一致。具体来说,HLA在协作完成订单的数量上显著优于仅使用Slow Mind或Fast Mind的智能体。此外,人类玩家对HLA的评价也更高,认为其更易于沟通和协作。
🎯 应用场景
HLA具有广泛的应用前景,例如在线游戏、虚拟助手、远程协作机器人等需要实时人机协作的领域。它可以帮助人类更好地与AI进行沟通和协作,提高工作效率和用户体验。未来,HLA可以进一步扩展到更复杂的任务和场景中,例如智能制造、医疗保健等。
📄 摘要(原文)
AI agents powered by Large Language Models (LLMs) have made significant advances, enabling them to assist humans in diverse complex tasks and leading to a revolution in human-AI coordination. LLM-powered agents typically require invoking LLM APIs and employing artificially designed complex prompts, which results in high inference latency. While this paradigm works well in scenarios with minimal interactive demands, such as code generation, it is unsuitable for highly interactive and real-time applications, such as gaming. Traditional gaming AI often employs small models or reactive policies, enabling fast inference but offering limited task completion and interaction abilities. In this work, we consider Overcooked as our testbed where players could communicate with natural language and cooperate to serve orders. We propose a Hierarchical Language Agent (HLA) for human-AI coordination that provides both strong reasoning abilities while keeping real-time execution. In particular, HLA adopts a hierarchical framework and comprises three modules: a proficient LLM, referred to as Slow Mind, for intention reasoning and language interaction, a lightweight LLM, referred to as Fast Mind, for generating macro actions, and a reactive policy, referred to as Executor, for transforming macro actions into atomic actions. Human studies show that HLA outperforms other baseline agents, including slow-mind-only agents and fast-mind-only agents, with stronger cooperation abilities, faster responses, and more consistent language communications.