Efficient Generative Retrieval for E-commerce Search with Semantic Cluster IDs and Expert-Guided RL

作者: Jianbo Zhu, Xing Fang, Jing Wang, Mingmin Jin, Bokang Wang, Guangxin Song, Zhenyu Xie, Junjie Bai

分类: cs.IR, cs.AI

发布日期: 2026-05-14

💡 一句话要点

针对电商搜索，提出基于语义簇ID和专家引导强化学习的高效生成式检索框架。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 生成式检索 电商搜索 语义簇ID 强化学习 对比学习 残差量化VAE 召回排序对齐

📋 核心要点

电商搜索中，海量动态商品目录、严格的延迟要求以及召回与排序目标对齐的需求，对生成式检索的实际应用构成挑战。
论文提出CQ-SID和EG-GRPO方法。CQ-SID通过分层语义簇标识符降低搜索复杂度，EG-GRPO利用强化学习对齐召回与排序。
实验表明，CQ-SID显著提升点击命中率并减小搜索空间，EG-GRPO进一步优化多目标性能，在线A/B测试验证了GMV和UCTCVR的提升。

📝 摘要（中文）

本文提出了一种专为实际电商搜索召回场景设计的检索框架，将生成式检索定位为召回阶段的补充而非端到端替代方案。该方法CQ-SID（类别和查询约束的语义ID）采用类别感知和查询-商品对比学习，结合残差量化VAE，将商品编码为分层语义簇标识符，显著降低了beam search的复杂度。此外，我们开发了EG-GRPO（专家引导的群体相对策略优化），这是一种强化学习方法，通过注入ground-truth样本来稳定训练，从而在稀疏奖励下使生成式召回与下游排序对齐。在天猫APP搜索日志上的离线实验表明，CQ-SID在语义和个性化点击命中率方面比RQ-VAE基线分别提高了26.76%和11.11%，同时beam search大小减半。EG-GRPO进一步提高了多目标性能。在线A/B测试证实了GMV（+1.15%）和UCTCVR（+0.40%）的增长。生成式召回通道目前在生产中贡献显著，占曝光的50.25%以上，点击的58.96%和购买的72.63%，展示了在实际电商系统中部署生成式检索的可行路径。

🔬 方法详解

问题定义：论文旨在解决电商搜索中生成式检索难以实际应用的问题。现有方法难以处理海量商品目录、延迟要求以及召回与排序目标对齐的挑战。传统的多阶段检索流程较为割裂，效率较低。

核心思路：论文的核心思路是将生成式检索作为召回阶段的补充，而非完全替代传统流程。通过学习商品的分层语义簇标识符来降低搜索复杂度，并利用强化学习使召回阶段与下游排序目标对齐。

技术框架：整体框架包含两个主要模块：CQ-SID（Category-and-Query constrained Semantic ID）和EG-GRPO（Expert-Guided Group Relative Policy Optimization）。CQ-SID负责生成商品的语义簇ID，EG-GRPO负责优化生成式召回策略，使其与下游排序目标对齐。整个流程首先使用CQ-SID将商品编码为语义ID，然后在召回阶段使用生成式模型生成候选商品ID，最后通过EG-GRPO优化生成策略。

关键创新：论文的关键创新在于结合了类别感知和查询-商品对比学习的语义ID生成方法CQ-SID，以及专家引导的群体相对策略优化方法EG-GRPO。CQ-SID能够有效地将商品编码为分层语义簇标识符，显著降低了beam search的复杂度。EG-GRPO通过注入ground-truth样本来稳定训练，从而在稀疏奖励下使生成式召回与下游排序对齐。

关键设计：CQ-SID使用残差量化VAE（Residual Quantized VAEs）作为基础模型，并引入了类别感知和查询-商品对比学习。EG-GRPO使用强化学习框架，奖励函数基于下游排序结果，并引入了专家指导，即ground-truth样本，以稳定训练过程。具体损失函数和网络结构细节未在摘要中详细描述，需要参考论文全文。

🖼️ 关键图片

📊 实验亮点

离线实验表明，CQ-SID在语义和个性化点击命中率方面比RQ-VAE基线分别提高了26.76%和11.11%，同时beam search大小减半。在线A/B测试证实了GMV（+1.15%）和UCTCVR（+0.40%）的增长。生成式召回通道在生产环境中贡献显著，占曝光的50.25%以上，点击的58.96%和购买的72.63%。

🎯 应用场景

该研究成果可应用于电商搜索、推荐系统等领域，提升商品召回效率和用户体验。通过生成式检索，能够更准确地理解用户意图，召回更相关的商品，从而提高点击率、转化率和用户满意度。该方法在实际电商系统中的成功部署，为生成式检索在工业界的应用提供了有价值的参考。

📄 摘要（原文）

Generative retrieval offers a promising alternative by unifying the fragmented multi-stage retrieval process into a single end-to-end model. However, its practical adoption in industrial e-commerce search remains challenging, given the massive and dynamic product catalogs, strict latency requirements, and the need to align retrieval with downstream ranking goals. In this work, we propose a retrieval framework tailored for real-world recall scenarios, positioning generative retrieval as a recall-stage supplement rather than an end-to-end replacement. Our method, CQ-SID (Category-and-Query constrained Semantic ID), employs category-aware and query-item contrastive learning along with Residual Quantized VAEs to encode items into hierarchical semantic cluster identifiers, significantly reducing beam search complexity. Additionally, we develop EG-GRPO (Expert-Guided Group Relative Policy Optimization), a reinforcement learning approach that aligns generative recall with downstream ranking under sparse rewards by injecting ground-truth samples to stabilize training. Offline experiments on TmallAPP search logs show that CQ-SID achieves up to 26.76% and 11.11% relative gains in semantic and personalized click hitrate over RQ-VAE baselines, while halving beam search size. EG-GRPO further improves multi-objective performance. Online A/B tests confirm gains in GMV (+1.15%) and UCTCVR (+0.40%). The generative recall channel now contributes substantially in production, accounting for over 50.25% of exposures, 58.96% of clicks, and 72.63% of purchases, demonstrating a viable path for deploying generative retrieval in real-world e-commerce systems.

Efficient Generative Retrieval for E-commerce Search with Semantic Cluster IDs and Expert-Guided RL

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理