MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models
作者: Yujing Wang, Hainan Zhang, Liang Pang, Binghui Guo, Hongwei Zheng, Zhiming Zheng
分类: cs.CL
发布日期: 2024-08-30 (更新: 2024-12-19)
💡 一句话要点
MaFeRw:融合多方面反馈的查询重写方法,提升检索增强大语言模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 查询重写 检索增强生成 强化学习 多方面反馈 对话系统
📋 核心要点
- 现有基于上下文的查询重写方法在RAG系统中提升有限,且基于生成反馈的强化学习方法训练不稳定。
- MaFeRw通过融合黄金文档、检索文档和生成结果的多方面反馈,指导查询重写,从而提升RAG性能。
- 实验表明,MaFeRw在对话式RAG数据集上取得了优于基线的生成指标,并实现了更稳定的训练过程。
📝 摘要(中文)
在实际的RAG系统中,当前查询通常包含口语化的省略和对话上下文中模糊的指代,因此需要查询重写以更好地描述用户的信息需求。然而,传统的基于上下文的重写对下游生成任务的提升很小,因为从查询重写到响应生成的过程很长。一些研究人员尝试利用强化学习和生成反馈来辅助重写器,但这些稀疏的奖励在大多数情况下提供的指导很少,导致训练和生成结果不稳定。我们发现用户的需求也反映在黄金文档、检索到的文档和真实标签中。因此,通过将这些多方面的密集奖励反馈给查询重写,可以实现更稳定和令人满意的响应。在本文中,我们提出了一种新的查询重写方法MaFeRw,它通过整合来自检索过程和生成结果的多方面反馈来提高RAG性能。具体来说,我们首先使用人工数据训练一个T5模型作为重写器的初始化。接下来,我们设计了三个指标作为强化学习反馈:重写查询与黄金文档之间的相似性、排序指标以及生成结果与真实标签之间的ROUGE值。受RLAIF的启发,我们为上述指标训练了三种奖励模型,以实现更高效的训练。最后,我们将这些奖励模型的分数结合起来作为反馈,并使用PPO算法来探索最佳的查询重写策略。在两个对话式RAG数据集上的实验结果表明,与基线相比,MaFeRw实现了卓越的生成指标和更稳定的训练。
🔬 方法详解
问题定义:论文旨在解决检索增强生成(RAG)系统中,由于用户查询的口语化、省略和模糊指代,导致检索效果不佳,最终影响生成质量的问题。现有方法,如基于上下文的查询重写,无法有效提升下游生成任务的性能;而基于强化学习的方法,由于奖励信号稀疏,训练过程不稳定。
核心思路:论文的核心思路是利用多方面的反馈信号来指导查询重写,这些反馈信号不仅来自生成结果,还包括检索过程中的黄金文档和检索文档。通过将这些密集且多样的反馈信息融入到查询重写过程中,可以更准确地捕捉用户意图,从而提升检索和生成效果。
技术框架:MaFeRw的整体框架包含以下几个主要模块:1) 重写器初始化:使用人工标注数据训练T5模型作为重写器的初始模型。2) 奖励模型训练:针对三个指标(重写查询与黄金文档的相似度、排序指标、生成结果与真实标签的ROUGE值)分别训练奖励模型。3) 强化学习训练:使用PPO算法,结合奖励模型提供的反馈信号,优化查询重写策略。
关键创新:MaFeRw的关键创新在于其多方面反馈机制。与传统方法仅依赖生成结果的反馈不同,MaFeRw同时考虑了黄金文档和检索文档的信息,从而提供了更全面、更准确的奖励信号。此外,使用多个奖励模型分别评估不同方面的性能,可以更精细地指导查询重写过程。
关键设计:在奖励模型方面,论文借鉴了RLAIF的思想,为每个指标(相似度、排序指标、ROUGE值)都训练了一个独立的奖励模型。相似度可以使用预训练语言模型的embedding计算,排序指标可以使用NDCG等指标,ROUGE值则直接计算生成结果和ground truth之间的重叠度。PPO算法用于优化重写器的策略,目标是最大化累积奖励。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MaFeRw在两个对话式RAG数据集上均取得了显著的性能提升。与基线方法相比,MaFeRw在生成指标(如BLEU、ROUGE)上取得了明显的优势,并且训练过程更加稳定。这些结果验证了多方面反馈机制的有效性,并表明MaFeRw能够更好地捕捉用户意图,从而提升RAG系统的整体性能。
🎯 应用场景
MaFeRw可应用于各种对话式RAG系统,例如智能客服、问答机器人和对话式搜索。通过提升查询理解和检索的准确性,MaFeRw能够显著改善生成内容的质量和相关性,从而提高用户满意度和系统效率。该方法还可扩展到其他需要查询重写的场景,例如信息检索和知识图谱问答。
📄 摘要(原文)
In a real-world RAG system, the current query often involves spoken ellipses and ambiguous references from dialogue contexts, necessitating query rewriting to better describe user's information needs. However, traditional context-based rewriting has minimal enhancement on downstream generation tasks due to the lengthy process from query rewriting to response generation. Some researchers try to utilize reinforcement learning with generation feedback to assist the rewriter, but these sparse rewards provide little guidance in most cases, leading to unstable training and generation results. We find that user's needs are also reflected in the gold document, retrieved documents and ground truth. Therefore, by feeding back these multi-aspect dense rewards to query rewriting, more stable and satisfactory responses can be achieved. In this paper, we propose a novel query rewriting method MaFeRw, which improves RAG performance by integrating multi-aspect feedback from both the retrieval process and generated results. Specifically, we first use manual data to train a T5 model for the rewriter initialization. Next, we design three metrics as reinforcement learning feedback: the similarity between the rewritten query and the gold document, the ranking metrics, and ROUGE between the generation and the ground truth. Inspired by RLAIF, we train three kinds of reward models for the above metrics to achieve more efficient training. Finally, we combine the scores of these reward models as feedback, and use PPO algorithm to explore the optimal query rewriting strategy. Experimental results on two conversational RAG datasets demonstrate that MaFeRw achieves superior generation metrics and more stable training compared to baselines.