GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval

📄 arXiv: 2509.23370v1 📥 PDF

作者: Zhaohua Zhang, Jianhuan Zhuo, Muxi Chen, Chenchen Zhao, Wenyu Jiang, Tianwen Jiang, Mingyang Chen, Yu Tang, Qiuyong Xiao, Jihong Zhang, Zhixun Su

分类: cs.CV

发布日期: 2025-09-27

🔗 代码/项目: GITHUB


💡 一句话要点

GRAPE:利用排序监督Query重写,提升检索系统在分布偏移下的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 查询重写 检索系统 大型语言模型 排序学习 分布偏移

📋 核心要点

  1. 现有检索系统在处理与训练数据分布存在差异的查询时性能下降,例如多语言、长文本或多模态查询。
  2. GRAPE通过利用排序信号监督LLM进行查询重写,将查询转换为更符合检索器训练分布的形式,从而弥合分布差异。
  3. 实验结果表明,GRAPE在多种分布偏移场景下均能显著提升检索性能,平均Recall@10提升4.9%。

📝 摘要(中文)

CLIP模型已成为大规模检索系统的基石,它将文本和图像数据对齐到统一的嵌入空间。然而,当输入分布偏离其训练语料库时,例如查询具有多语言、长文本或多模态差异时,CLIP会遇到困难。为了避免昂贵的重新训练,现有方法主要采用基于大型语言模型(LLM)的查询重写策略,旨在缓解查询级别的分布差距。但是,由于缺乏监督信号,LLM无法生成最适合训练分布的查询。我们提出了GRAPE(Grouped Ranking-Aware Policy Optimization Enhancement),这是一种即插即用的增强方法,它将排序信号整合到基于LLM的检索引导的查询重写中。GRAPE通过将查询转换为更符合检索器训练分布的形式,来弥合分布差异,包括长度、多语言和模态偏移。为了解决直接使用相似度分数微调LLM可能导致的分数膨胀问题,我们提出了一种语料库相关的基于排序的奖励,它在抑制虚假分数膨胀的同时,显式地将优化与排序指标对齐。大量实验表明,GRAPE在分布偏移下持续提高检索性能,包括多语言差异(Flickr30k-CN、CVLUE、XM3600)、长度差异(Wikipedia)和多模态差异(CIRR),在Recall@10上平均提高了4.9%。

🔬 方法详解

问题定义:论文旨在解决CLIP模型在处理与训练数据分布存在差异的查询时性能下降的问题。现有方法主要依赖于LLM进行查询重写,但由于缺乏有效的监督信号,LLM难以生成最优的重写查询,导致检索性能提升有限,甚至出现分数膨胀的问题。

核心思路:论文的核心思路是利用排序信号来监督LLM进行查询重写。通过将检索结果的排序信息作为奖励信号,引导LLM生成更符合检索器训练分布的查询,从而提高检索性能。这种方法避免了昂贵的模型重训练,并且可以即插即用,方便集成到现有检索系统中。

技术框架:GRAPE的整体框架包含以下几个主要模块:1) LLM查询重写器:使用LLM生成多个候选重写查询。2) 检索器:使用CLIP模型或其他检索模型对原始查询和重写查询进行检索,得到排序结果。3) 奖励计算模块:根据检索结果的排序信息,计算每个重写查询的奖励值。4) 策略优化模块:使用GRPO算法优化LLM的查询重写策略,使其能够生成更高奖励的查询。

关键创新:GRAPE的关键创新在于提出了基于排序的奖励函数,该奖励函数能够有效抑制分数膨胀,并显式地将优化目标与排序指标对齐。传统的相似度分数直接作为奖励容易导致分数膨胀,而GRAPE通过引入语料库相关的排序信息,使得奖励更加稳定和可靠。

关键设计:GRAPE的关键设计包括:1) 使用GRPO算法进行策略优化,该算法能够更好地处理离散动作空间(即LLM生成的文本)。2) 设计了语料库相关的基于排序的奖励函数,该函数考虑了检索结果的排序位置和相关性,能够有效抑制分数膨胀。3) 采用了分组策略,将相似的查询分组,并在组内进行排序优化,从而提高优化的效率和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GRAPE在多种分布偏移场景下均能显著提升检索性能。在多语言检索任务中,GRAPE在Flickr30k-CN、CVLUE和XM3600数据集上均取得了显著提升。在长文本检索任务中,GRAPE在Wikipedia数据集上也有所提升。在多模态检索任务中,GRAPE在CIRR数据集上同样表现出色。总体而言,GRAPE在Recall@10上平均提高了4.9%。

🎯 应用场景

GRAPE可应用于各种大规模检索系统,尤其是在处理多语言、长文本或多模态查询的场景下。例如,可以用于跨语言图像检索、长文档检索、以及基于文本描述的图像检索等。该方法能够有效提升检索系统的鲁棒性和泛化能力,提高用户体验。

📄 摘要(原文)

The CLIP model has become a cornerstone of large-scale retrieval systems by aligning text and image data in a unified embedding space. Despite its simplicity and efficiency, CLIP struggles when applied to tasks whose input distributions diverge from its training corpus, such as queries with multilingual, long-form, or multimodal differences. To avoid costly retraining, existing methods mainly adopt query-rewriting strategies with large language models (LLMs), aiming to mitigate distribution gaps at the query level. However, due to the lack of supervision signals, LLMs fail to generate the optimal one that fits the training distribution. We address this challenge with GRAPE (Grouped Ranking-Aware Policy Optimization Enhancement), a plug-and-play enhancement approach that incorporates ranking signals into retrieval-guided query rewriting with LLMs. Intuitively, GRAPE proposes to leverage GRPO to bridge distributional differences -- including length, multilingual, and modality shifts -- by transforming queries into forms better aligned with the retriever's training distribution. However, our preliminary experiment finds that naively finetuning LLM with similarity scores can lead to score inflation, where nearly all candidates are assigned unexpectedly high scores regardless of their true relevance. To address score inflation, we propose a corpus-relative ranking-based reward, which explicitly aligns optimization with ranking metrics while suppressing spurious score inflation. Extensive experiments demonstrate that GRAPE consistently improves retrieval performance under distributional shifts -- including multilingual differences (Flickr30k-CN, CVLUE, XM3600), length differences (Wikipedia), and multimodal differences (CIRR) -- achieving an average improvement of 4.9\% in Recall\@10. The code is available at https://github.com/Chinese0123456/GRAPE.git