ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent

作者: Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar

分类: cs.CL

发布日期: 2023-12-15

备注: 19 pages, 4 figures, 4 tables, 8 listings

💡 一句话要点

提出ReST meets ReAct框架，通过自提升学习解决多步推理LLM Agent的复杂问答问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: ReAct ReST 强化学习 知识检索 多步推理 自提升学习 AI反馈 知识蒸馏

📋 核心要点

现有方法在处理需要多步推理和外部知识整合的复杂问答任务时存在不足，无法端到端训练。
论文提出ReST meets ReAct框架，利用ReAct风格的Agent进行推理和行动，并通过ReST方法进行迭代训练和自我提升。
实验结果表明，经过少量迭代，该方法可以使用更小的模型在复杂问答任务上达到与大型模型相当的性能。

📝 摘要（中文）

回答复杂的自然语言问题通常需要多步推理和整合外部信息。一些系统已经将知识检索与大型语言模型（LLM）结合起来以回答此类问题。然而，这些系统存在各种失败案例，并且我们无法直接对它们进行端到端训练来解决这些失败，因为与外部知识的交互是不可微的。为了解决这些缺陷，我们定义了一个ReAct风格的LLM Agent，它具有推理和作用于外部知识的能力。我们进一步通过一种类似ReST的方法来改进Agent，该方法迭代地训练先前的轨迹，采用增长批次的强化学习和AI反馈，以实现持续的自我改进和自我蒸馏。从一个prompted大型模型开始，经过该算法的两次迭代后，我们可以生成一个微调的小型模型，该模型在具有挑战性的组合问答基准测试中实现了可比的性能，而参数减少了两个数量级。

🔬 方法详解

问题定义：论文旨在解决复杂自然语言问答中，现有方法难以有效利用外部知识进行多步推理的问题。现有方法通常无法进行端到端训练，难以优化与外部知识交互的过程，导致性能瓶颈。

核心思路：论文的核心思路是结合ReAct框架和ReST方法，构建一个能够自主推理、行动并从经验中学习的Agent。ReAct框架赋予Agent与环境交互的能力，ReST方法则通过迭代训练和AI反馈，不断提升Agent的推理和行动能力。

技术框架：整体框架包含以下几个主要模块：1) ReAct Agent：负责接收问题，进行推理，并根据推理结果采取行动（例如检索外部知识）。2) 轨迹生成：Agent与环境交互，生成一系列的轨迹数据，记录Agent的推理过程和行动结果。3) ReST训练：利用生成的轨迹数据，采用增长批次的强化学习方法，训练Agent。AI反馈用于指导训练过程，提升Agent的性能。4) 自我蒸馏：将训练好的大型Agent的知识蒸馏到小型Agent中，实现模型压缩。

关键创新：论文的关键创新在于将ReAct框架和ReST方法相结合，实现Agent的持续自我提升。通过迭代训练和AI反馈，Agent能够不断优化其推理和行动策略，从而在复杂问答任务中取得更好的性能。此外，自我蒸馏技术使得可以使用更小的模型达到与大型模型相当的性能，降低了计算成本。

关键设计：论文采用ReAct风格的Agent，使其能够进行推理和行动。ReST训练采用增长批次的强化学习方法，逐步增加训练数据的规模，提高训练效率。AI反馈用于指导训练过程，例如，可以根据Agent的推理过程和行动结果，给出奖励或惩罚。自我蒸馏采用标准的知识蒸馏技术，将大型Agent的知识迁移到小型Agent中。

📊 实验亮点

实验结果表明，经过两次迭代训练，该方法可以使用参数量减少两个数量级的模型，在具有挑战性的组合问答基准测试中达到与大型模型相当的性能。这表明该方法具有很强的模型压缩能力和泛化能力，能够有效提升Agent的推理和行动能力。

🎯 应用场景

该研究成果可应用于智能问答系统、知识图谱推理、智能助手等领域。通过构建能够自主推理和学习的Agent，可以提升这些系统在处理复杂问题时的能力，并降低计算成本。未来，该方法有望应用于更广泛的自然语言处理任务，例如文本摘要、机器翻译等。

📄 摘要（原文）

Answering complex natural language questions often necessitates multi-step reasoning and integrating external information. Several systems have combined knowledge retrieval with a large language model (LLM) to answer such questions. These systems, however, suffer from various failure cases, and we cannot directly train them end-to-end to fix such failures, as interaction with external knowledge is non-differentiable. To address these deficiencies, we define a ReAct-style LLM agent with the ability to reason and act upon external knowledge. We further refine the agent through a ReST-like method that iteratively trains on previous trajectories, employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation. Starting from a prompted large model and after just two iterations of the algorithm, we can produce a fine-tuned small model that achieves comparable performance on challenging compositional question-answering benchmarks with two orders of magnitude fewer parameters.

ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册