Rewriting Conversational Utterances with Instructed Large Language Models

作者: Elnara Galimzhanova, Cristina Ioana Muntean, Franco Maria Nardini, Raffaele Perego, Guido Rocchietti

分类: cs.CL, cs.AI, cs.HC, cs.IR

发布日期: 2024-10-10

期刊: 2023 IEEE/WIC International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT)

DOI: 10.1109/WI-IAT59888.2023.00014

💡 一句话要点

利用指令式大型语言模型重写对话语句，提升会话搜索效果。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 会话搜索 查询重写 大型语言模型 指令学习 自然语言处理

📋 核心要点

会话搜索中，用户语句的质量直接影响检索效果，如何提升语句的信息量是核心问题。
利用指令式大型语言模型（LLM）重写用户语句，旨在生成更清晰、更具信息量的查询。
在 TREC CAST 数据集上的实验表明，该方法在多个指标上显著优于现有技术，提升效果显著。

📝 摘要（中文）

许多最新研究表明，大型语言模型（LLM）在诸多自然语言处理任务中表现出色，例如问答、文本摘要、代码编写和翻译。在某些情况下，LLM 的结果与人类专家不相上下。这些模型最具颠覆性的创新在于它们能够通过零样本或少样本提示来执行任务。这种能力已成功用于训练指令式 LLM，其中使用带有人工反馈的强化学习来指导模型直接遵循用户的请求。在本文中，我们研究了指令式 LLM 通过重写会话环境中的用户问题来提高会话搜索有效性的能力。我们研究了哪些提示能够提供信息量最大的重写语句，从而带来最佳的检索性能。在公开的 TREC CAST 数据集上进行了可重复的实验。结果表明，使用指令式 LLM 重写会话语句可以显著提高 MRR（高达 25.2%）、Precision@1（31.7%）、NDCG@3（27%）和 Recall@500（11.5%），优于最先进的技术。

🔬 方法详解

问题定义：在会话搜索中，用户的提问往往不够明确或包含上下文依赖，导致检索效果不佳。现有方法难以有效地利用上下文信息来改进查询，从而限制了搜索性能。论文旨在解决如何利用大型语言模型（LLM）来重写用户语句，使其更具信息量，从而提升会话搜索的准确性和召回率。

核心思路：核心思路是利用指令式 LLM 的强大生成能力，通过精心设计的提示（prompt）来引导 LLM 重写用户的会话语句。通过指令，让 LLM 考虑上下文信息，生成更清晰、更全面的查询，从而提高检索系统的性能。这种方法避免了手动设计复杂规则或特征工程的需要。

技术框架：整体框架包括以下步骤：1) 接收用户的会话语句；2) 使用预定义的提示（prompt）将用户语句输入到指令式 LLM 中；3) LLM 根据提示生成重写后的语句；4) 使用重写后的语句进行检索；5) 评估检索结果。关键在于 prompt 的设计，需要包含清晰的指令，引导 LLM 生成高质量的重写语句。

关键创新：关键创新在于将指令式 LLM 应用于会话搜索的查询重写任务，并探索了不同 prompt 对重写效果的影响。与传统方法相比，该方法无需手动设计复杂的规则或特征，而是利用 LLM 的强大生成能力自动生成高质量的查询。此外，论文还系统地研究了不同类型的 prompt，并分析了它们对检索性能的影响。

关键设计：论文的关键设计在于 prompt 的设计。作者尝试了多种 prompt，包括简单的指令（例如“Rewrite the query”）和更复杂的指令（例如包含上下文信息的指令）。此外，作者还探索了不同的 LLM 模型，并比较了它们在查询重写任务上的性能。具体的参数设置和损失函数取决于所使用的 LLM 模型，论文中没有详细说明。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用指令式 LLM 重写会话语句可以显著提高会话搜索的性能。具体而言，该方法在 MRR 上提升了 25.2%，在 Precision@1 上提升了 31.7%，在 NDCG@3 上提升了 27%，在 Recall@500 上提升了 11.5%，优于现有的最先进技术。这些结果表明，指令式 LLM 在会话搜索的查询重写任务中具有巨大的潜力。

🎯 应用场景

该研究成果可应用于各种会话搜索系统，例如智能助手、在线客服和问答系统。通过提升查询语句的质量，可以显著改善用户体验，提高搜索效率，并为用户提供更准确、更相关的搜索结果。未来，该方法还可以扩展到其他自然语言处理任务，例如文本摘要和机器翻译。

📄 摘要（原文）

Many recent studies have shown the ability of large language models (LLMs) to achieve state-of-the-art performance on many NLP tasks, such as question answering, text summarization, coding, and translation. In some cases, the results provided by LLMs are on par with those of human experts. These models' most disruptive innovation is their ability to perform tasks via zero-shot or few-shot prompting. This capability has been successfully exploited to train instructed LLMs, where reinforcement learning with human feedback is used to guide the model to follow the user's requests directly. In this paper, we investigate the ability of instructed LLMs to improve conversational search effectiveness by rewriting user questions in a conversational setting. We study which prompts provide the most informative rewritten utterances that lead to the best retrieval performance. Reproducible experiments are conducted on publicly-available TREC CAST datasets. The results show that rewriting conversational utterances with instructed LLMs achieves significant improvements of up to 25.2% in MRR, 31.7% in Precision@1, 27% in NDCG@3, and 11.5% in Recall@500 over state-of-the-art techniques.

Rewriting Conversational Utterances with Instructed Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理