Question-Analysis Prompting Improves LLM Performance in Reasoning Tasks

📄 arXiv: 2407.03624v2 📥 PDF

作者: Dharunish Yugeswardeenoo, Kevin Zhu, Sean O'Brien

分类: cs.CL

发布日期: 2024-07-04 (更新: 2024-08-26)

备注: Accepted in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics: Student Research Workshop (ACL-SRW 2024) 11 pages, 8 figures


💡 一句话要点

提出问题分析提示(QAP)方法,提升LLM在推理任务中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理任务 问题分析 提示工程 思维链

📋 核心要点

  1. 现有LLM在推理任务中表现欠佳,直接进行逐步计算并非最佳方案,需要更深入的问题理解。
  2. QAP方法要求LLM在解题前用n个词分析问题,旨在提升模型对问题本质的理解。
  3. 实验表明,QAP在AQuA和SAT数据集上优于CoT等先进方法,并在多数测试中名列前茅。

📝 摘要(中文)

大型语言模型(LLM)在许多领域具有变革潜力,但在推理任务中仍不如人类。现有方法诱导模型生成逐步计算,但本研究探讨的问题是:让LLM分析问题是否能提高其性能?我们提出了一种新颖的提示策略,称为问题分析提示(QAP),其中模型被提示在解决问题之前用n个词解释问题。n的值影响模型生成的响应长度。QAP在算术数据集GSM8K、AQuA和SAT以及常识数据集StrategyQA上,使用GPT 3.5 Turbo和GPT 4 Turbo进行了评估。QAP与其他最先进的提示方法进行了比较,包括思维链(CoT)、计划与解决提示(PS+)和深呼吸(TADB)。QAP在GPT3.5和GPT4上,均优于AQuA和SAT数据集上的所有最先进的提示方法。在75%的测试中,QAP始终排在前2名。QAP性能的一个关键因素可以归因于响应长度,详细的响应有利于回答较难的问题,但可能会对简单的问题产生负面影响。

🔬 方法详解

问题定义:现有的大型语言模型在解决推理问题时,通常采用思维链(Chain-of-Thought, CoT)等方法,直接引导模型生成逐步的解题步骤。然而,这种方法忽略了对问题本身的深入理解和分析,可能导致模型在复杂问题上表现不佳。论文旨在解决LLM在推理任务中缺乏对问题本质理解的问题,从而提升解题准确率。

核心思路:论文的核心思路是在解题之前,强制LLM对问题进行分析和解释。通过让模型用n个词来概括问题,促使模型更深入地理解问题的关键信息和约束条件。这种预先分析的步骤可以帮助模型更好地组织解题思路,从而提高解题的准确性和效率。论文假设,对问题的深入理解是解决复杂推理问题的关键。

技术框架:QAP方法的技术框架非常简单,主要是在传统的prompting方法的基础上增加了一个问题分析的步骤。具体流程如下:1. 原始问题输入;2. 问题分析提示(例如,“请用n个词概括这个问题”);3. 模型生成问题分析;4. 基于问题分析进行解题;5. 输出答案。整个流程的关键在于问题分析提示的设计和n值的选择。

关键创新:QAP方法最重要的技术创新点在于其强调了问题分析的重要性,并将问题分析作为一个独立的步骤引入到LLM的推理过程中。与传统的CoT等方法相比,QAP方法更加注重对问题本身的理解,而不是仅仅关注解题步骤的生成。这种方法可以帮助LLM更好地应对复杂和模糊的问题,提高解题的鲁棒性和泛化能力。

关键设计:QAP方法的一个关键设计是参数n的选择,n代表模型用于概括问题的词数。论文指出,n值的选择对QAP的性能有重要影响。对于简单的问题,较小的n值可能更合适,因为过多的分析可能会分散模型的注意力。对于复杂的问题,较大的n值可能更合适,因为更详细的分析可以帮助模型更好地理解问题的关键信息。论文没有提供关于n值选择的具体策略,这可能需要根据具体的问题类型和模型进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QAP方法在AQuA和SAT数据集上显著优于CoT、PS+和TADB等基线方法。在GPT3.5和GPT4上,QAP均取得了最佳性能。具体而言,QAP在AQuA数据集上的提升最为明显,表明其在处理需要深入理解的问题时具有优势。此外,实验还发现,QAP的性能与响应长度(由n值控制)密切相关,表明需要根据问题难度调整分析的详细程度。

🎯 应用场景

QAP方法可应用于各种需要复杂推理能力的场景,如数学问题求解、科学研究、金融分析、法律咨询等。通过提升LLM对问题的理解能力,可以提高自动化问题解决系统的准确性和可靠性,减少人工干预,提高工作效率。未来,QAP方法有望与知识图谱、符号推理等技术结合,构建更强大的智能推理系统。

📄 摘要(原文)

Although LLMs have the potential to transform many fields, they still underperform humans in reasoning tasks. Existing methods induce the model to produce step-by-step calculations, but this research explores the question: Does making the LLM analyze the question improve its performance? We propose a novel prompting strategy called Question Analysis Prompting (QAP), in which the model is prompted to explain the question in $n$ words before solving. The value of $n$ influences the length of response generated by the model. QAP is evaluated on GPT 3.5 Turbo and GPT 4 Turbo on arithmetic datasets GSM8K, AQuA, and SAT and commonsense dataset StrategyQA. QAP is compared with other state-of-the-art prompts including Chain-of-Thought (CoT), Plan and Solve Prompting (PS+) and Take A Deep Breath (TADB). QAP outperforms all state-of-the-art prompts on AQuA and SAT datasets on both GPT3.5 and GPT4. QAP consistently ranks among the top-2 prompts on 75\% of the tests. A key factor of QAP performance can be attributed to response length, where detailed responses are beneficial when answering harder questions, but can negatively affect easy questions.