AutoManual: Constructing Instruction Manuals by LLM Agents via Interactive Environmental Learning

📄 arXiv: 2405.16247v4 📥 PDF

作者: Minghao Chen, Yihang Li, Yanting Yang, Shiyu Yu, Binbin Lin, Xiaofei He

分类: cs.AI, cs.CL

发布日期: 2024-05-25 (更新: 2024-11-10)

备注: Accepted at NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

AutoManual:通过交互式环境学习,利用LLM Agent构建指令手册

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 交互式学习 环境探索 指令手册 规则管理

📋 核心要点

  1. 现有LLM Agent在特定领域任务中需要精细设计和专家提示,限制了其适应性。
  2. AutoManual框架通过交互式环境学习,使LLM Agent自主构建理解并适应新环境,无需过多人工干预。
  3. 实验表明,AutoManual在ALFWorld任务中显著提升了任务成功率,GPT-4-turbo达到97.4%,GPT-3.5-turbo达到86.2%。

📝 摘要(中文)

基于大型语言模型(LLM)的Agent在自主完成各种领域的任务方面显示出潜力,例如机器人、游戏和Web导航。然而,这些Agent通常需要精心的设计和专家提示才能解决特定领域的任务,这限制了它们的适应性。我们引入AutoManual,一个使LLM Agent能够通过交互自主构建其理解并适应新环境的框架。AutoManual将环境知识分为不同的规则,并通过两个Agent以在线方式优化它们:1) Planner根据当前规则编码可操作的计划,用于与环境交互。2) Builder通过结构良好的规则系统更新规则,该系统有助于在线规则管理和基本细节保留。为了减轻管理规则中的幻觉,我们为Builder引入了一种案例条件提示策略。最后,Formulator Agent将这些规则编译成全面的手册。自我生成的手册不仅可以提高适应性,还可以指导较小LLM的规划,同时具有人类可读性。仅给定一个简单的演示,AutoManual显着提高了任务成功率,在使用GPT-4-turbo时达到97.4%,在使用GPT-3.5-turbo时达到86.2%在ALFWorld基准测试任务上。代码可在https://github.com/minghchen/automanual获得。

🔬 方法详解

问题定义:现有基于LLM的Agent在面对新环境时,需要大量人工干预进行prompt工程,以适应特定任务。这种方式成本高昂,且Agent的泛化能力受限。因此,如何让Agent自主学习并适应新环境,是本文要解决的核心问题。现有方法难以有效管理和更新环境知识,容易产生幻觉,并且难以将学习到的知识转化为可读性强的指令手册。

核心思路:AutoManual的核心思路是通过交互式环境学习,让Agent自主探索环境,并将学习到的知识提炼成规则,最终生成指令手册。这种方式模仿了人类学习的过程,Agent通过不断试错和总结,逐步掌握环境的规律。通过将知识分解为规则,并采用案例条件提示,可以有效减少幻觉,提高知识的准确性。

技术框架:AutoManual包含三个主要Agent:Planner、Builder和Formulator。Planner负责根据当前规则生成行动计划,与环境进行交互。Builder负责根据交互结果更新规则,维护一个结构化的规则系统。Formulator负责将学习到的规则编译成人类可读的指令手册。整个流程是一个循环迭代的过程,Agent不断探索环境,更新规则,最终生成完整的指令手册。

关键创新:AutoManual的关键创新在于其自主学习和规则管理机制。通过交互式环境学习,Agent可以自主探索环境,无需过多人工干预。结构化的规则系统可以有效管理和更新环境知识,减少幻觉。案例条件提示可以根据具体情况选择合适的规则,提高知识的准确性。此外,自动生成指令手册的设计,使得学习到的知识可以被其他Agent或人类使用。

关键设计:AutoManual的Builder Agent采用了案例条件提示策略,即在更新规则时,会参考历史的交互案例,以减少幻觉。规则系统采用结构化的设计,包括前提条件、行动和结果等要素,方便管理和更新。Formulator Agent在生成指令手册时,会根据规则的优先级和重要性进行排序,以保证手册的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AutoManual在ALFWorld基准测试中取得了显著的成果。仅使用一个简单的演示,AutoManual在使用GPT-4-turbo时达到了97.4%的任务成功率,在使用GPT-3.5-turbo时达到了86.2%的任务成功率。这表明AutoManual具有很强的自主学习和适应能力,可以有效解决复杂环境下的任务。

🎯 应用场景

AutoManual具有广泛的应用前景,可应用于机器人控制、游戏AI、Web导航等领域。通过自主学习和生成指令手册,可以降低Agent开发的成本,提高Agent的泛化能力。未来,AutoManual可以应用于更复杂的环境和任务,例如自动驾驶、智能家居等。

📄 摘要(原文)

Large Language Models (LLM) based agents have shown promise in autonomously completing tasks across various domains, e.g., robotics, games, and web navigation. However, these agents typically require elaborate design and expert prompts to solve tasks in specific domains, which limits their adaptability. We introduce AutoManual, a framework enabling LLM agents to autonomously build their understanding through interaction and adapt to new environments. AutoManual categorizes environmental knowledge into diverse rules and optimizes them in an online fashion by two agents: 1) The Planner codes actionable plans based on current rules for interacting with the environment. 2) The Builder updates the rules through a well-structured rule system that facilitates online rule management and essential detail retention. To mitigate hallucinations in managing rules, we introduce a case-conditioned prompting strategy for the Builder. Finally, the Formulator agent compiles these rules into a comprehensive manual. The self-generated manual can not only improve the adaptability but also guide the planning of smaller LLMs while being human-readable. Given only one simple demonstration, AutoManual significantly improves task success rates, achieving 97.4\% with GPT-4-turbo and 86.2\% with GPT-3.5-turbo on ALFWorld benchmark tasks. The code is available at https://github.com/minghchen/automanual.