Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example

📄 arXiv: 2408.06318v1 📥 PDF

作者: Yanan Chen, Ali Pesaranghader, Tanmana Sadhu, Dong Hoon Yi

分类: cs.AI, cs.LG

发布日期: 2024-08-12

备注: 13 pages, 2 figures, 4 tables


💡 一句话要点

针对长程规划任务,评估LLM Agent在TravelPlanner基准上的可靠性,并提出反馈感知微调方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长程规划 LLM Agent 反馈学习 TravelPlanner 基准测试

📋 核心要点

  1. 现有研究缺乏对LLM Agent在复杂现实规划任务中表现的深入分析,尤其是在长程规划和噪声环境下的鲁棒性。
  2. 论文提出利用TravelPlanner基准测试,评估LLM Agent在长上下文推理、少量样本提示和计划改进方面的能力。
  3. 实验表明,LLM Agent在长上下文处理中存在局限性,并提出了反馈感知微调(FAFT)方法,显著提升了规划性能。

📝 摘要(中文)

大型语言模型(LLMs)凭借其良好的泛化能力和涌现能力,使自主Agent更接近通用人工智能(AGI)。然而,关于基于LLM的Agent的行为方式、潜在失败原因以及改进方法的研究仍然不足,尤其是在要求严苛的现实世界规划任务中。本文旨在填补这一空白,使用一个真实的基准测试TravelPlanner进行研究,在该基准测试中,Agent必须满足多个约束才能生成准确的计划。我们利用此基准来解决四个关键研究问题:(1) LLM Agent在推理和规划方面是否足够鲁棒,能够处理冗长且嘈杂的上下文?(2) 在长上下文场景中,少量样本提示是否会对LLM Agent的性能产生不利影响?(3) 我们是否可以依靠改进来优化计划?(4) 使用正负反馈对LLM进行微调是否能带来进一步的改进?我们的综合实验表明,首先,尽管LLM能够处理大量的参考信息和少量样本示例,但它们常常无法关注长上下文中的关键部分;其次,它们仍然难以分析长计划,并且无法为改进提供准确的反馈;第三,我们提出了反馈感知微调(FAFT),它利用正负反馈,从而在监督微调(SFT)的基础上获得了显著的提升。我们的研究结果为社区提供了关于现实世界规划应用各个方面的深入见解。

🔬 方法详解

问题定义:论文旨在评估LLM Agent在长程规划任务中的可靠性,具体体现在TravelPlanner基准测试上。现有方法在处理长上下文、噪声数据和复杂约束时表现不佳,难以生成高质量的旅行计划。LLM Agent难以有效利用长上下文信息,并且在计划改进方面缺乏准确的反馈机制。

核心思路:论文的核心思路是深入分析LLM Agent在长程规划任务中的失败原因,并提出一种反馈感知的微调方法(FAFT)来提升其性能。通过显式地利用正负反馈信息,引导LLM Agent学习如何生成更准确、更符合约束的计划。

技术框架:整体框架包括以下几个阶段:1) 使用TravelPlanner基准测试评估现有LLM Agent的性能;2) 分析LLM Agent在长上下文推理和计划改进方面的不足;3) 提出反馈感知微调(FAFT)方法,利用正负反馈信息对LLM进行微调;4) 通过实验验证FAFT方法的有效性。

关键创新:最重要的技术创新点是反馈感知微调(FAFT)方法。与传统的监督微调(SFT)方法不同,FAFT方法不仅利用正样本进行训练,还利用负样本进行训练,从而使LLM Agent能够更好地理解任务约束,并生成更符合要求的计划。

关键设计:FAFT方法的关键设计在于如何有效地利用正负反馈信息。具体来说,论文设计了一种特殊的损失函数,该损失函数不仅惩罚LLM Agent生成的错误计划,还奖励LLM Agent生成的正确计划。此外,论文还探索了不同的正负反馈采样策略,以进一步提升FAFT方法的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,FAFT方法在TravelPlanner基准测试上取得了显著的性能提升,相比于传统的监督微调(SFT)方法,FAFT方法能够生成更准确、更符合约束的旅行计划。具体而言,FAFT方法在计划成功率和计划质量方面均取得了显著的提升。

🎯 应用场景

该研究成果可应用于各种需要长程规划的实际场景,例如旅行规划、项目管理、供应链优化等。通过提升LLM Agent在复杂约束下的规划能力,可以显著提高工作效率和决策质量,并为用户提供更智能、更个性化的服务。

📄 摘要(原文)

Large language models (LLMs) have brought autonomous agents closer to artificial general intelligence (AGI) due to their promising generalization and emergent capabilities. There is, however, a lack of studies on how LLM-based agents behave, why they could potentially fail, and how to improve them, particularly in demanding real-world planning tasks. In this paper, as an effort to fill the gap, we present our study using a realistic benchmark, TravelPlanner, where an agent must meet multiple constraints to generate accurate plans. We leverage this benchmark to address four key research questions: (1) are LLM agents robust enough to lengthy and noisy contexts when it comes to reasoning and planning? (2) can few-shot prompting adversely impact the performance of LLM agents in scenarios with long context? (3) can we rely on refinement to improve plans, and (4) can fine-tuning LLMs with both positive and negative feedback lead to further improvement? Our comprehensive experiments indicate that, firstly, LLMs often fail to attend to crucial parts of a long context, despite their ability to handle extensive reference information and few-shot examples; secondly, they still struggle with analyzing the long plans and cannot provide accurate feedback for refinement; thirdly, we propose Feedback-Aware Fine-Tuning (FAFT), which leverages both positive and negative feedback, resulting in substantial gains over Supervised Fine-Tuning (SFT). Our findings offer in-depth insights to the community on various aspects related to real-world planning applications.