Annotation-Free Reinforcement Learning Query Rewriting via Verifiable Search Reward

作者: Sungguk Cha, DongWook Kim, Taeseung Hahn, Mintae Kim, Youngsub Han, Byoung-Ki Jeon

分类: cs.CV, cs.CL, cs.LG

发布日期: 2025-07-31 (更新: 2025-12-12)

💡 一句话要点

提出RL-QR，一种无需标注的强化学习查询重写框架，提升RAG系统检索性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 查询重写 强化学习 无监督学习 检索增强生成 多模态检索

📋 核心要点

RAG系统中查询优化面临挑战，尤其是在多模态索引场景下，人工标注数据成本高昂。
RL-QR利用索引对齐的合成查询生成可验证的搜索奖励，无需人工标注即可进行查询重写。
实验表明，RL-QR在多个数据集上显著提升了检索性能，验证了其鲁棒性和有效性。

📝 摘要（中文）

本文提出了一种名为RL-QR的全新无标注强化学习框架，用于查询重写，旨在优化检索增强生成（RAG）系统中的查询，尤其是在跨多种模态索引的情况下。RL-QR通过利用从索引对齐的合成查询中导出的可验证搜索奖励，克服了对昂贵的人工标注数据的依赖，从而扩展了其在各种模态和索引域中的适用性。实验结果表明，该框架具有很强的鲁棒性，在非结构化视觉文档的MTEB VIDORE V2基准测试中，词法检索器的检索性能提升高达3.9倍，语义检索器的检索性能提升高达3.5倍，并且在MS MARCO v2.1和内部工业数据集上始终如一地提高了5%到10%。

🔬 方法详解

问题定义：现有RAG系统在处理多模态数据时，查询优化面临挑战。人工标注数据成本高昂且难以泛化到不同模态和索引域。因此，如何设计一种无需人工标注的查询重写方法，以提升RAG系统的检索性能，是一个亟待解决的问题。

核心思路：RL-QR的核心思路是利用强化学习自动学习查询重写策略，并通过可验证的搜索奖励来指导学习过程。该方法避免了人工标注，而是利用索引对齐的合成查询来生成奖励信号，从而实现高效的查询优化。

技术框架：RL-QR框架主要包含以下几个模块：1) 查询编码器：将原始查询编码成向量表示。2) 查询重写器（强化学习Agent）：基于当前查询状态，生成重写后的查询。3) 检索器：使用重写后的查询在索引中检索相关文档。4) 奖励函数：基于检索结果和合成查询，计算奖励信号，用于指导强化学习Agent的学习。整个流程通过强化学习算法（如Policy Gradient）进行迭代优化，最终学习到最优的查询重写策略。

关键创新：RL-QR的关键创新在于提出了基于可验证搜索奖励的无标注强化学习查询重写方法。与传统的监督学习方法相比，RL-QR无需人工标注数据，降低了成本并提高了泛化能力。与传统的强化学习方法相比，RL-QR利用合成查询生成奖励信号，避免了奖励稀疏的问题，加速了学习过程。

关键设计：在奖励函数设计方面，RL-QR利用索引对齐的合成查询来评估重写后查询的检索效果。具体来说，对于每个原始查询，RL-QR生成若干个与其相关的合成查询，并计算重写后查询检索到的文档与这些合成查询的相关性。相关性越高，奖励越高。在强化学习算法方面，可以使用Policy Gradient等算法来优化查询重写器的策略。具体参数设置需要根据具体数据集和任务进行调整。

📊 实验亮点

实验结果表明，RL-QR在MTEB VIDORE V2基准测试中，词法检索器的检索性能提升高达3.9倍，语义检索器的检索性能提升高达3.5倍。在MS MARCO v2.1和内部工业数据集上，RL-QR也取得了5%到10%的性能提升。这些结果表明，RL-QR是一种有效且鲁棒的查询重写方法。

🎯 应用场景

RL-QR可广泛应用于各种RAG系统中，尤其是在需要处理多模态数据和缺乏人工标注数据的场景下。例如，可以应用于图像检索、视频检索、跨模态检索等领域，提升检索精度和用户体验。该研究成果对于构建更智能、更高效的RAG系统具有重要意义。

📄 摘要（原文）

Optimizing queries for Retrieval-Augmented Generation (RAG) systems poses a significant challenge, particularly across diverse modal indices. We introduce RL-QR, a novel annotation-free reinforcement learning framework for query rewriting that eliminates the need for costly human-annotated data. By leveraging verifiable search rewards derived from index-aligned synthetic queries, RL-QR overcomes human-annotation dependencies, extending its applicability to various modalities and index domains. Experimental results demonstrate the framework's robustness, achieving substantial retrieval performance gains of up to 3.9$\times$ on lexical retrievers and 3.5$\times$ on semantic retrievers on the MTEB VIDORE V2 benchmark for unstructured visual documents, along with consistent 5\% to 10\% improvements on MS MARCO v2.1 and internal industrial datasets.

Annotation-Free Reinforcement Learning Query Rewriting via Verifiable Search Reward

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理