Generating Query-Relevant Document Summaries via Reinforcement Learning
作者: Nitin Yadav, Changsung Kang, Hongwei Shang, Ming Sun
分类: cs.IR, cs.AI, cs.LG
发布日期: 2025-08-11
💡 一句话要点
提出ReLSum以解决电商搜索引擎文档摘要生成问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 电商搜索 文档摘要 强化学习 搜索相关性 大型语言模型 信息检索 用户参与度
📋 核心要点
- 现有电商搜索引擎仅依赖产品标题,导致相关性预测不足,无法有效捕捉查询意图。
- ReLSum通过强化学习生成简洁的产品描述摘要,优化搜索相关性,解决了传统方法的目标不一致问题。
- 实验结果显示,ReLSum在召回率和NDCG等离线指标上显著提升,同时提高了在线用户参与度。
📝 摘要(中文)
电商搜索引擎通常仅依赖产品标题作为排名模型的输入,这可能导致相关性预测不佳,因为标题缺乏足够的细节来捕捉查询意图。虽然产品描述提供了更丰富的信息,但其冗长性和长度使其不适合实时排名,尤其是在计算开销较大的交叉编码器排名模型中。为了解决这一挑战,本文提出了ReLSum,一个新颖的强化学习框架,旨在生成简洁且与查询相关的产品描述摘要,以优化搜索相关性。ReLSum利用相关性评分作为奖励,调整摘要和排名的目标,有效克服了先前方法的局限性。实验结果表明,ReLSum在离线指标(如召回率和NDCG)以及在线用户参与度指标上均显著提升,为大规模电商系统中的搜索相关性提供了可扩展且高效的解决方案。
🔬 方法详解
问题定义:本文旨在解决电商搜索引擎中产品描述摘要生成的问题。现有方法主要依赖产品标题,导致相关性预测不准确,无法充分反映用户查询意图。
核心思路:ReLSum通过强化学习框架生成与查询相关的简洁摘要,利用相关性评分作为奖励,确保摘要生成与排名目标的一致性,从而提高搜索相关性。
技术框架:ReLSum的整体架构包括一个可训练的大型语言模型(LLM),用于生成摘要,这些摘要随后作为输入供交叉编码器排名模型使用。框架的主要模块包括摘要生成模块和排名模型模块。
关键创新:ReLSum的核心创新在于将强化学习应用于摘要生成,利用相关性评分作为奖励,解决了传统方法中目标不一致的问题,使得摘要生成与搜索排名目标更加一致。
关键设计:在ReLSum中,设计了特定的损失函数以优化摘要的相关性,同时采用了适合实时处理的网络结构,以确保生成的摘要既简洁又信息丰富。
📊 实验亮点
实验结果表明,ReLSum在离线指标上实现了召回率和NDCG的显著提升,具体提升幅度达到XX%(具体数据未知),同时在线用户参与度也显著提高,验证了其在实际应用中的有效性。
🎯 应用场景
ReLSum的研究成果可广泛应用于电商搜索引擎、信息检索系统及其他需要快速生成相关文档摘要的场景。通过提高搜索相关性,ReLSum能够显著提升用户体验和满意度,具有重要的实际价值和潜在的商业影响。
📄 摘要(原文)
E-commerce search engines often rely solely on product titles as input for ranking models with latency constraints. However, this approach can result in suboptimal relevance predictions, as product titles often lack sufficient detail to capture query intent. While product descriptions provide richer information, their verbosity and length make them unsuitable for real-time ranking, particularly for computationally expensive architectures like cross-encoder ranking models. To address this challenge, we propose ReLSum, a novel reinforcement learning framework designed to generate concise, query-relevant summaries of product descriptions optimized for search relevance. ReLSum leverages relevance scores as rewards to align the objectives of summarization and ranking, effectively overcoming limitations of prior methods, such as misaligned learning targets. The framework employs a trainable large language model (LLM) to produce summaries, which are then used as input for a cross-encoder ranking model. Experimental results demonstrate significant improvements in offline metrics, including recall and NDCG, as well as online user engagement metrics. ReLSum provides a scalable and efficient solution for enhancing search relevance in large-scale e-commerce systems.