CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning

📄 arXiv: 2411.16313v3 📥 PDF

作者: Duo Wu, Jinghe Wang, Yuan Meng, Yanning Zhang, Le Sun, Zhi Wang

分类: cs.AI, cs.LG

发布日期: 2024-11-25 (更新: 2025-07-13)

备注: Accepted to ICCV 2025. Codes and dataset are available at: https://github.com/duowuyms/OpenCATP-LLM

🔗 代码/项目: GITHUB


💡 一句话要点

提出CATP-LLM框架,赋能大语言模型进行成本感知的工具规划。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 工具规划 成本感知 强化学习 离线学习 多模态 机器人 OpenCATP数据集

📋 核心要点

  1. 现有工具规划方法忽略了工具执行成本,导致计划成本过高,性价比低。
  2. CATP-LLM框架通过设计工具规划语言和成本感知的离线强化学习算法,优化性能-成本权衡。
  3. 实验表明,即使使用Llama2-7B作为骨干,CATP-LLM的性能也优于GPT-4,计划质量平均提高了1.5%-93.9%。

📝 摘要(中文)

本文提出了一种名为CATP-LLM的框架,旨在赋能大语言模型(LLM)进行成本感知的工具规划。利用LLM进行工具规划是开发通用人工智能系统的一种有前景的途径,其中LLM自动调度外部工具(例如,视觉模型)以根据任务描述处理复杂任务。为了将这种范式推向实际应用,LLM必须考虑工具执行成本(例如,执行时间)以进行工具规划。之前的研究忽略了工具执行成本,导致生成的计划成本高昂,其成本超过了任务性能方面的收益。为了填补这一空白,CATP-LLM首次提供了一个连贯的设计,以增强LLM进行成本感知的工具规划。具体来说,为了促进高效的并发工具执行和降低成本,我们设计了一种工具规划语言,以增强LLM创建多分支非顺序计划的能力。此外,我们提出了一种成本感知的离线强化学习算法,以微调LLM,从而优化工具规划中的性能-成本权衡。由于缺乏公共的成本相关数据集,我们进一步提出了OpenCATP,这是第一个用于成本感知规划的数据集,其中包含来自各种任务的11,100个评估样本。大量实验表明,即使使用Llama2-7B作为其骨干,CATP-LLM的性能也优于GPT-4,计划质量平均提高了1.5%-93.9%。代码和数据集可在https://github.com/duowuyms/OpenCATP-LLM获得。

🔬 方法详解

问题定义:现有的大语言模型在进行工具规划时,通常忽略了工具的执行成本,例如运行时间、计算资源消耗等。这导致生成的工具执行计划虽然能够完成任务,但效率低下,成本过高,实际应用价值受限。因此,如何让LLM在工具规划过程中充分考虑成本因素,生成性能与成本之间达到良好平衡的计划,是本文要解决的核心问题。

核心思路:本文的核心思路是赋予LLM成本意识,使其在生成工具执行计划时,能够权衡不同工具的性能和成本,选择最优的工具组合和执行顺序。具体而言,通过设计一种新的工具规划语言,使LLM能够生成多分支、非顺序的并发执行计划,从而提高效率。同时,利用成本感知的离线强化学习算法,对LLM进行微调,使其能够更好地学习性能-成本之间的权衡关系。

技术框架:CATP-LLM框架主要包含以下几个模块:1) 工具规划语言设计:定义了一种新的语言,用于描述多分支、非顺序的工具执行计划。2) 成本感知的离线强化学习:使用离线数据对LLM进行微调,使其能够学习性能-成本之间的权衡关系。3) OpenCATP数据集:构建了一个包含11,100个样本的成本感知规划数据集,用于训练和评估模型。整体流程是,首先使用工具规划语言描述任务,然后利用微调后的LLM生成工具执行计划,最后根据实际执行情况评估计划的性能和成本。

关键创新:本文最重要的技术创新点在于提出了一个完整的框架,首次将成本意识引入到大语言模型的工具规划中。与现有方法相比,CATP-LLM能够生成更高效、更经济的工具执行计划,从而提高了LLM在实际应用中的价值。此外,OpenCATP数据集的构建也为该领域的研究提供了重要的数据支持。

关键设计:工具规划语言的设计允许LLM生成并发执行的计划,从而减少总执行时间。成本感知的离线强化学习算法使用奖励函数来平衡性能和成本,鼓励LLM选择成本较低的工具。OpenCATP数据集包含了各种任务的样本,覆盖了不同的工具和成本范围,从而提高了模型的泛化能力。具体的损失函数和网络结构等细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使使用参数量较小的Llama2-7B作为骨干模型,CATP-LLM的性能也优于GPT-4。在计划质量方面,CATP-LLM平均提高了1.5%-93.9%。这表明CATP-LLM框架能够有效地提高LLM的工具规划能力,并实现性能与成本之间的良好平衡。OpenCATP数据集的发布也为该领域的研究提供了重要的基准。

🎯 应用场景

CATP-LLM框架可应用于各种需要工具规划的场景,例如机器人控制、智能助手、自动化流程设计等。通过优化工具执行计划,可以显著降低成本、提高效率,从而推动大语言模型在实际应用中的普及。未来,该研究有望扩展到更复杂的任务和环境,例如多智能体协作、资源受限的边缘计算等。

📄 摘要(原文)

Utilizing large language models (LLMs) for tool planning has emerged as a promising avenue for developing general AI systems, where LLMs automatically schedule external tools (e.g., vision models) to tackle complex tasks based on task descriptions. To push this paradigm toward practical applications, it is crucial for LLMs to consider tool execution costs (e.g., execution time) for tool planning. Unfortunately, prior studies overlook the tool execution costs, leading to the generation of expensive plans whose costs outweigh their benefits in terms of task performance. To fill this gap, we propose the Cost-Aware Tool Planning with LLMs (CATP-LLM) framework, which for the first time provides a coherent design to empower LLMs for cost-aware tool planning. Specifically, To facilitate efficient concurrent tool execution and cost reduction, we design a tool planning language to enhance the LLM for creating multi-branch non-sequential plans. Moreover, we propose a cost-aware offline reinforcement learning algorithm to fine-tune the LLM to optimize the performance-cost trade-off in tool planning. In the lack of public cost-related datasets, we further present OpenCATP, the first dataset for cost-aware planning, which comprises 11,100 evaluation samples from diverse tasks. Extensive experiments show that CATP-LLM outperforms GPT-4 even when using Llama2-7B as its backbone, with the average improvement of 1.5%-93.9% in terms of plan quality. Codes and dataset are available at: https://github.com/duowuyms/OpenCATP-LLM.