Passage-specific Prompt Tuning for Passage Reranking in Question Answering with Large Language Models

📄 arXiv: 2405.20654v2 📥 PDF

作者: Xuyang Wu, Zhiyuan Peng, Krishna Sravanthi Rajanala Sai, Hsin-Tai Wu, Yi Fang

分类: cs.CL, cs.IR

发布日期: 2024-05-31 (更新: 2024-06-21)

备注: Accepted at Gen-IR@SIGIR24


💡 一句话要点

提出段落特定Prompt Tuning方法,提升大语言模型在开放域问答中的段落重排序性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放域问答 段落重排序 大型语言模型 Prompt Tuning 参数高效微调

📋 核心要点

  1. 现有基于LLM的段落重排序方法依赖人工prompt,性能不稳定,且完全微调LLM成本高。
  2. PSPT方法通过学习段落特定的软prompt,并融入段落知识,实现高效的段落重排序。
  3. 实验结果表明,PSPT在开放域问答数据集上,显著提升了Llama-2-chat-7B模型的重排序性能。

📝 摘要(中文)

为了在开放域问答任务中有效利用大型语言模型(LLMs)进行段落重排序,本文提出了一种段落特定的Prompt Tuning方法(PSPT)。现有方法依赖人工设计的prompt,性能对prompt敏感,且微调整个LLM计算成本高昂。PSPT通过微调可学习的段落特定软prompt,并融入来自少量问题-段落相关性对的段落特定知识,实现了参数高效的微调。该方法基于模型生成问题在给定段落和学习到的软prompt下的对数似然来对检索到的段落进行排序。在三个公开的开放域问答数据集上,使用Llama-2-chat-7B模型进行的大量实验表明了该方法的有效性。

🔬 方法详解

问题定义:论文旨在解决开放域问答中,利用大型语言模型(LLMs)进行段落重排序时,对人工prompt的敏感性以及完全微调LLM带来的高计算成本问题。现有方法依赖人工设计的prompt,导致性能波动较大,且无法有效利用问题-段落相关性信息和段落特定知识。

核心思路:核心思路是引入段落特定的软prompt,通过微调这些软prompt来适应不同的段落,从而提高LLM在段落重排序任务中的性能。这种方法避免了对整个LLM进行微调,降低了计算成本,同时允许模型学习和利用段落特定的知识。

技术框架:整体框架包括以下几个步骤:首先,使用现有的检索方法检索候选段落;然后,对于每个候选段落,将其与一个可学习的段落特定软prompt拼接;接着,将拼接后的文本输入到LLM中,计算模型生成问题的对数似然;最后,根据对数似然对段落进行排序。

关键创新:关键创新在于引入了段落特定的软prompt,并提出了一种参数高效的微调方法。与传统的硬prompt方法相比,软prompt可以更好地适应不同的段落,提高模型的鲁棒性。与完全微调LLM相比,微调软prompt的计算成本更低。

关键设计:关键设计包括:1) 软prompt的长度和初始化方式;2) 用于微调软prompt的损失函数,通常使用交叉熵损失或负对数似然损失;3) 如何将段落特定知识融入到软prompt中,例如,可以使用段落的向量表示来初始化软prompt。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PSPT方法在三个公开的开放域问答数据集上,显著提升了Llama-2-chat-7B模型的重排序性能。具体而言,与基线方法相比,PSPT在多个指标上取得了显著的提升,证明了其有效性和优越性。实验结果还表明,PSPT方法具有较好的鲁棒性,对不同的数据集和模型具有一定的泛化能力。

🎯 应用场景

该研究成果可应用于各种需要信息检索和排序的场景,例如智能客服、搜索引擎、知识图谱问答等。通过提升LLM在段落重排序方面的能力,可以更准确地找到与用户查询相关的文档,提高用户体验和工作效率。未来,该方法可以进一步扩展到其他语言和领域,并与其他技术相结合,例如知识蒸馏和模型压缩。

📄 摘要(原文)

Effective passage retrieval and reranking methods have been widely utilized to identify suitable candidates in open-domain question answering tasks, recent studies have resorted to LLMs for reranking the retrieved passages by the log-likelihood of the question conditioned on each passage. Although these methods have demonstrated promising results, the performance is notably sensitive to the human-written prompt (or hard prompt), and fine-tuning LLMs can be computationally intensive and time-consuming. Furthermore, this approach limits the leverage of question-passage relevance pairs and passage-specific knowledge to enhance the ranking capabilities of LLMs. In this paper, we propose passage-specific prompt tuning for reranking in open-domain question answering (PSPT): a parameter-efficient method that fine-tunes learnable passage-specific soft prompts, incorporating passage-specific knowledge from a limited set of question-passage relevance pairs. The method involves ranking retrieved passages based on the log-likelihood of the model generating the question conditioned on each passage and the learned soft prompt. We conducted extensive experiments utilizing the Llama-2-chat-7B model across three publicly available open-domain question answering datasets and the results demonstrate the effectiveness of the proposed approach.