CHIQ: Contextual History Enhancement for Improving Query Rewriting in Conversational Search

📄 arXiv: 2406.05013v2 📥 PDF

作者: Fengran Mo, Abbas Ghaddar, Kelong Mao, Mehdi Rezagholizadeh, Boxing Chen, Qun Liu, Jian-Yun Nie

分类: cs.IR, cs.CL

发布日期: 2024-06-07 (更新: 2024-09-26)

备注: Accepted by EMNLP 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出CHIQ,利用开源LLM增强对话搜索中的查询改写,尤其针对歧义查询。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话搜索 查询改写 大型语言模型 开源LLM 上下文理解

📋 核心要点

  1. 现有对话搜索方法依赖闭源LLM直接生成查询,成本高且可控性差,限制了其应用。
  2. CHIQ方法利用开源LLM,通过两步走策略,先解决对话历史歧义,再进行查询改写。
  3. 实验表明,CHIQ在多个基准测试中达到SOTA或极具竞争力的性能,验证了其有效性。

📝 摘要(中文)

本文研究了如何有效地部署开源大型语言模型(LLMs)来改进对话搜索中的查询改写,特别是对于歧义查询。我们提出了一种名为CHIQ的两步法,该方法利用LLMs的能力在查询改写之前解决对话历史中的歧义。这与先前主要使用闭源LLMs直接从对话历史生成搜索查询的研究形成对比。我们在五个已建立的基准测试上证明,CHIQ在大多数设置下都能达到最先进的结果,并显示出与利用闭源LLMs的系统相比极具竞争力的性能。我们的研究为在对话搜索中利用开源LLMs迈出了第一步,作为对当前依赖商业LLMs的一种有竞争力的替代方案。数据、模型和源代码将在接收后公开于https://github.com/fengranMark/CHIQ。

🔬 方法详解

问题定义:对话搜索中,用户查询往往依赖上下文,存在歧义。现有方法主要依赖闭源LLM直接从对话历史生成查询,这存在成本高昂、可控性差等问题,限制了其广泛应用。开源LLM在对话搜索中的应用仍有待探索。

核心思路:CHIQ的核心思路是将查询改写过程分解为两个步骤:首先,利用LLM理解和消除对话历史中的歧义;然后,基于消除歧义后的上下文进行查询改写。这种两步法能够更有效地利用LLM的能力,并降低对LLM直接生成能力的依赖。

技术框架:CHIQ包含两个主要阶段:上下文历史增强(Contextual History Enhancement)和查询改写(Query Rewriting)。在上下文历史增强阶段,利用LLM对对话历史进行分析,识别并解决其中的歧义。在查询改写阶段,基于增强后的上下文,利用LLM生成更准确、更符合用户意图的查询。整体流程是先用LLM理解上下文,再用LLM生成查询。

关键创新:CHIQ的关键创新在于其两步法的设计,将歧义消除和查询改写解耦,从而能够更有效地利用开源LLM的能力。与直接使用LLM生成查询的方法相比,CHIQ能够更好地控制查询改写的过程,并降低对LLM生成能力的依赖。

关键设计:CHIQ的具体实现细节包括:选择合适的开源LLM,设计有效的prompt来引导LLM进行歧义消除和查询改写,以及选择合适的评估指标来衡量查询改写的质量。论文中可能还涉及了针对特定数据集的微调策略,以及一些超参数的调整。

🖼️ 关键图片

fig_0

📊 实验亮点

CHIQ在五个基准测试中取得了显著成果,在大多数设置下达到SOTA水平,并与使用闭源LLM的系统相比,表现出极具竞争力的性能。这表明,通过合理的设计,开源LLM完全可以胜任对话搜索中的查询改写任务,并成为闭源LLM的有效替代方案。

🎯 应用场景

CHIQ方法可应用于各种对话搜索场景,如电商客服、智能助手、问答系统等。通过利用开源LLM,降低了对话搜索系统的开发和部署成本,促进了其在更广泛领域的应用。该研究为开源LLM在对话搜索领域的应用提供了有益的探索,具有重要的实际价值和未来影响。

📄 摘要(原文)

In this paper, we study how open-source large language models (LLMs) can be effectively deployed for improving query rewriting in conversational search, especially for ambiguous queries. We introduce CHIQ, a two-step method that leverages the capabilities of LLMs to resolve ambiguities in the conversation history before query rewriting. This approach contrasts with prior studies that predominantly use closed-source LLMs to directly generate search queries from conversation history. We demonstrate on five well-established benchmarks that CHIQ leads to state-of-the-art results across most settings, showing highly competitive performances with systems leveraging closed-source LLMs. Our study provides a first step towards leveraging open-source LLMs in conversational search, as a competitive alternative to the prevailing reliance on commercial LLMs. Data, models, and source code will be publicly available upon acceptance at https://github.com/fengranMark/CHIQ.