Automatic Prompt Selection for Large Language Models

📄 arXiv: 2404.02717v1 📥 PDF

作者: Viet-Tung Do, Van-Khanh Hoang, Duy-Hung Nguyen, Shahab Sabahi, Jeff Yang, Hajime Hotta, Minh-Tien Nguyen, Hung Le

分类: cs.CL, cs.LG

发布日期: 2024-04-03

备注: preprint


💡 一句话要点

提出自动提示选择方法以优化大语言模型的输入处理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自动提示选择 自然语言处理 聚类算法 提示评估器

📋 核心要点

  1. 现有方法在自动提示优化上缺乏灵活性和效率,导致手动设计提示的挑战。
  2. 本文提出的解决方案通过聚类训练数据并生成候选提示,结合提示评估器自动选择最佳提示。
  3. 在多个零-shot问答数据集上,所提方法表现出竞争力,显示出显著的性能提升。

📝 摘要(中文)

大语言模型(LLMs)能够执行多种自然语言处理任务,但手动设计有效的提示既困难又耗时。现有的自动提示优化方法在灵活性或效率上存在不足。本文提出了一种有效的方法,从有限的合成候选提示集中自动选择最佳提示。该方法包括三个步骤:首先,对训练数据进行聚类,并使用基于LLM的提示生成器为每个聚类生成候选提示;其次,合成输入-提示-输出元组的数据集,以训练提示评估器,根据与输入的相关性对提示进行排名;最后,在测试时使用提示评估器选择最佳提示。该方法在零-shot问答数据集(如GSM8K、MultiArith和AQuA)上表现出竞争力。

🔬 方法详解

问题定义:本文旨在解决大语言模型在自然语言处理任务中提示设计的困难,现有方法在灵活性和效率上存在不足,导致提示选择过程耗时且不够精准。

核心思路:论文的核心思路是通过聚类训练数据生成候选提示,并利用提示评估器自动选择与输入最相关的提示,从而提高提示的有效性和适用性。

技术框架:整体架构分为三个主要阶段:第一阶段是对训练数据进行聚类并生成候选提示;第二阶段是合成输入-提示-输出元组的数据集,以训练提示评估器;第三阶段是在测试时使用提示评估器选择最佳提示。

关键创新:最重要的技术创新在于通过聚类与提示生成相结合,优化了提示选择过程,避免了资源密集型的训练和推理,与现有方法相比,提升了灵活性和效率。

关键设计:在关键设计上,使用了基于LLM的提示生成器,聚类算法的选择,以及提示评估器的训练数据合成策略,确保了提示的相关性和有效性。通过这些设计,显著提高了模型在问答任务中的表现。

📊 实验亮点

在多个零-shot问答数据集(如GSM8K、MultiArith和AQuA)上,所提方法展现出竞争力的性能,具体表现为相较于基线方法,问答准确率显著提升,验证了该方法的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括教育、客服和信息检索等多个自然语言处理场景。通过自动选择最佳提示,可以显著提高大语言模型在特定任务中的表现,降低人工干预的需求,提升工作效率。未来,该方法有望在更广泛的应用中推广,推动智能助手和自动化系统的发展。

📄 摘要(原文)

Large Language Models (LLMs) can perform various natural language processing tasks with suitable instruction prompts. However, designing effective prompts manually is challenging and time-consuming. Existing methods for automatic prompt optimization either lack flexibility or efficiency. In this paper, we propose an effective approach to automatically select the optimal prompt for a given input from a finite set of synthetic candidate prompts. Our approach consists of three steps: (1) clustering the training data and generating candidate prompts for each cluster using an LLM-based prompt generator; (2) synthesizing a dataset of input-prompt-output tuples for training a prompt evaluator to rank the prompts based on their relevance to the input; (3) using the prompt evaluator to select the best prompt for a new input at test time. Our approach balances prompt generality-specificity and eliminates the need for resource-intensive training and inference. It demonstrates competitive performance on zero-shot question-answering datasets: GSM8K, MultiArith, and AQuA.