Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning

📄 arXiv: 2406.10479v2 📥 PDF

作者: Wenjun Li, Changyu Chen, Pradeep Varakantham

分类: cs.AI

发布日期: 2024-06-15 (更新: 2025-04-24)

备注: 8 pages of main paper, 2 pages of references


💡 一句话要点

提出最大化多样性微调方法,提升大语言模型在规划任务中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 规划任务 微调 多样性采样 聚类 图神经网络 样本效率

📋 核心要点

  1. 现有大语言模型在数据稀缺的规划任务中表现不佳,需要大量特定示例进行微调,成本高昂。
  2. 论文提出基于聚类的最大多样性采样(CMDS)方法,旨在选择更具代表性和多样性的样本进行微调。
  3. 实验结果表明,CMDS-g算法在不同规模和多个基准测试中,性能始终优于现有基线方法。

📝 摘要(中文)

大型语言模型(LLM)通过提示工程和系统设计展现了强大的任务解决能力,包括在有充足在线数据支持的预训练后,解决规划任务(如数学证明、基本旅行规划)。然而,对于先验数据有限的规划任务(如积木世界、高级旅行规划),LLM(包括GPT和Gemini等专有模型)的性能较差。本文研究了微调对LLM规划能力的影响,发现通过大量的特定示例(数万个)进行微调可以使LLM在规划方面取得优异的性能。然而,对于每个规划问题的变体,这个过程都会产生高昂的经济、时间和计算成本。为了解决这个问题,我们提出了基于聚类的最大多样性采样(CMDS),它选择多样化和有代表性的数据,以提高样本效率和模型的泛化能力。广泛的评估表明,CMDS-l(一种将CMDS与语言嵌入相结合的基线方法)优于随机采样。此外,我们还引入了一种新算法CMDS-g,它将规划任务实例及其图表示编码到嵌入空间中。实验结果表明,CMDS-g在各种规模和多个基准领域始终优于基线方法。

🔬 方法详解

问题定义:论文旨在解决大语言模型在先验数据有限的规划任务中表现不佳的问题。现有方法依赖于大量特定示例的微调,导致经济、时间和计算成本过高。痛点在于如何提高微调的样本效率,并增强模型的泛化能力,使其能够适应不同的规划问题变体。

核心思路:论文的核心思路是通过选择最具代表性和多样性的样本进行微调,从而提高样本效率和模型的泛化能力。通过最大化训练数据的多样性,模型可以学习到更广泛的规划策略,从而更好地适应新的规划任务。

技术框架:整体框架包括以下几个主要阶段:1) 规划任务实例的表示:将规划任务实例表示为语言嵌入或图嵌入。2) 基于聚类的多样性采样:使用聚类算法将任务实例分组,并从每个组中选择最具代表性的样本。3) 微调:使用选择的样本对大语言模型进行微调。4) 评估:在不同的规划任务上评估微调后的模型的性能。

关键创新:论文的关键创新在于提出了基于聚类的最大多样性采样(CMDS)方法,该方法能够有效地选择多样化和有代表性的样本进行微调。特别是CMDS-g算法,它利用图表示编码规划任务实例,从而更好地捕捉任务之间的关系。与随机采样相比,CMDS能够显著提高样本效率和模型的泛化能力。

关键设计:CMDS-l使用语言嵌入(例如,来自预训练语言模型的嵌入)来表示规划任务实例。CMDS-g使用图神经网络(GNN)来编码规划任务的图表示,并生成图嵌入。聚类算法(例如,k-means)用于将任务实例分组。采样策略从每个簇中选择距离簇中心最近的样本,以保证代表性,同时保证簇间的差异性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CMDS-g算法在各种规模和多个基准领域始终优于基线方法,包括随机采样和CMDS-l。具体来说,CMDS-g在积木世界和高级旅行规划等任务上取得了显著的性能提升,证明了其在数据稀缺场景下的有效性。实验结果还表明,CMDS能够显著提高样本效率,减少微调所需的数据量。

🎯 应用场景

该研究成果可应用于各种需要规划能力的领域,例如机器人导航、任务调度、供应链优化、旅行规划等。通过高效地微调大语言模型,可以使其在特定领域的规划任务中表现出色,降低开发成本,并提高自动化水平。未来,该方法有望扩展到更复杂的规划场景,并与其他技术(如强化学习)相结合,实现更智能的规划系统。

📄 摘要(原文)

Large language models (LLMs) have demonstrated impressive task-solving capabilities through prompting techniques and system designs, including solving planning tasks (e.g., math proofs, basic travel planning) when sufficient data is available online and used during pre-training. However, for planning tasks with limited prior data (e.g., blocks world, advanced travel planning), the performance of LLMs, including proprietary models like GPT and Gemini, is poor. This paper investigates the impact of fine-tuning on the planning capabilities of LLMs, revealing that LLMs can achieve strong performance in planning through substantial (tens of thousands of specific examples) fine-tuning. Yet, this process incurs high economic, time, and computational costs for each planning problem variation. To address this, we propose Clustering-Based Maximum Diversity Sampling (CMDS), which selects diverse and representative data to enhance sample efficiency and the model's generalization capability. Extensive evaluations demonstrate that CMDS-l, a baseline method combining CMDS with language embeddings, outperforms random sampling. Furthermore, we introduce a novel algorithm, CMDS-g, which encodes planning task instances with their graph representations into the embedding space. Empirical results show that CMDS-g consistently outperforms baseline methods across various scales and multiple benchmark domains.