Efficient Generative Retrieval for E-commerce Search with Semantic Cluster IDs and Expert-Guided RL
作者: Jianbo Zhu, Xing Fang, Jing Wang, Mingmin Jin, Bokang Wang, Guangxin Song, Zhenyu Xie, Junjie Bai
分类: cs.IR, cs.AI
发布日期: 2026-05-14
💡 一句话要点
针对电商搜索,提出基于语义簇ID和专家引导强化学习的高效生成式检索框架。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 生成式检索 电商搜索 语义簇ID 强化学习 对比学习 残差量化VAE 召回排序对齐
📋 核心要点
- 电商搜索中,海量动态商品目录、严格的延迟要求以及召回与排序目标对齐的需求,对生成式检索的实际应用构成挑战。
- 论文提出CQ-SID和EG-GRPO方法。CQ-SID通过分层语义簇标识符降低搜索复杂度,EG-GRPO利用强化学习对齐召回与排序。
- 实验表明,CQ-SID显著提升点击命中率并减小搜索空间,EG-GRPO进一步优化多目标性能,在线A/B测试验证了GMV和UCTCVR的提升。
📝 摘要(中文)
本文提出了一种专为实际电商搜索召回场景设计的检索框架,将生成式检索定位为召回阶段的补充而非端到端替代方案。该方法CQ-SID(类别和查询约束的语义ID)采用类别感知和查询-商品对比学习,结合残差量化VAE,将商品编码为分层语义簇标识符,显著降低了beam search的复杂度。此外,我们开发了EG-GRPO(专家引导的群体相对策略优化),这是一种强化学习方法,通过注入ground-truth样本来稳定训练,从而在稀疏奖励下使生成式召回与下游排序对齐。在天猫APP搜索日志上的离线实验表明,CQ-SID在语义和个性化点击命中率方面比RQ-VAE基线分别提高了26.76%和11.11%,同时beam search大小减半。EG-GRPO进一步提高了多目标性能。在线A/B测试证实了GMV(+1.15%)和UCTCVR(+0.40%)的增长。生成式召回通道目前在生产中贡献显著,占曝光的50.25%以上,点击的58.96%和购买的72.63%,展示了在实际电商系统中部署生成式检索的可行路径。
🔬 方法详解
问题定义:论文旨在解决电商搜索中生成式检索难以实际应用的问题。现有方法难以处理海量商品目录、延迟要求以及召回与排序目标对齐的挑战。传统的多阶段检索流程较为割裂,效率较低。
核心思路:论文的核心思路是将生成式检索作为召回阶段的补充,而非完全替代传统流程。通过学习商品的分层语义簇标识符来降低搜索复杂度,并利用强化学习使召回阶段与下游排序目标对齐。
技术框架:整体框架包含两个主要模块:CQ-SID(Category-and-Query constrained Semantic ID)和EG-GRPO(Expert-Guided Group Relative Policy Optimization)。CQ-SID负责生成商品的语义簇ID,EG-GRPO负责优化生成式召回策略,使其与下游排序目标对齐。整个流程首先使用CQ-SID将商品编码为语义ID,然后在召回阶段使用生成式模型生成候选商品ID,最后通过EG-GRPO优化生成策略。
关键创新:论文的关键创新在于结合了类别感知和查询-商品对比学习的语义ID生成方法CQ-SID,以及专家引导的群体相对策略优化方法EG-GRPO。CQ-SID能够有效地将商品编码为分层语义簇标识符,显著降低了beam search的复杂度。EG-GRPO通过注入ground-truth样本来稳定训练,从而在稀疏奖励下使生成式召回与下游排序对齐。
关键设计:CQ-SID使用残差量化VAE(Residual Quantized VAEs)作为基础模型,并引入了类别感知和查询-商品对比学习。EG-GRPO使用强化学习框架,奖励函数基于下游排序结果,并引入了专家指导,即ground-truth样本,以稳定训练过程。具体损失函数和网络结构细节未在摘要中详细描述,需要参考论文全文。
🖼️ 关键图片
📊 实验亮点
离线实验表明,CQ-SID在语义和个性化点击命中率方面比RQ-VAE基线分别提高了26.76%和11.11%,同时beam search大小减半。在线A/B测试证实了GMV(+1.15%)和UCTCVR(+0.40%)的增长。生成式召回通道在生产环境中贡献显著,占曝光的50.25%以上,点击的58.96%和购买的72.63%。
🎯 应用场景
该研究成果可应用于电商搜索、推荐系统等领域,提升商品召回效率和用户体验。通过生成式检索,能够更准确地理解用户意图,召回更相关的商品,从而提高点击率、转化率和用户满意度。该方法在实际电商系统中的成功部署,为生成式检索在工业界的应用提供了有价值的参考。
📄 摘要(原文)
Generative retrieval offers a promising alternative by unifying the fragmented multi-stage retrieval process into a single end-to-end model. However, its practical adoption in industrial e-commerce search remains challenging, given the massive and dynamic product catalogs, strict latency requirements, and the need to align retrieval with downstream ranking goals. In this work, we propose a retrieval framework tailored for real-world recall scenarios, positioning generative retrieval as a recall-stage supplement rather than an end-to-end replacement. Our method, CQ-SID (Category-and-Query constrained Semantic ID), employs category-aware and query-item contrastive learning along with Residual Quantized VAEs to encode items into hierarchical semantic cluster identifiers, significantly reducing beam search complexity. Additionally, we develop EG-GRPO (Expert-Guided Group Relative Policy Optimization), a reinforcement learning approach that aligns generative recall with downstream ranking under sparse rewards by injecting ground-truth samples to stabilize training. Offline experiments on TmallAPP search logs show that CQ-SID achieves up to 26.76% and 11.11% relative gains in semantic and personalized click hitrate over RQ-VAE baselines, while halving beam search size. EG-GRPO further improves multi-objective performance. Online A/B tests confirm gains in GMV (+1.15%) and UCTCVR (+0.40%). The generative recall channel now contributes substantially in production, accounting for over 50.25% of exposures, 58.96% of clicks, and 72.63% of purchases, demonstrating a viable path for deploying generative retrieval in real-world e-commerce systems.