Knowledge Distillation for Enhancing Walmart E-commerce Search Relevance Using Large Language Models
作者: Hongwei Shang, Nguyen Vo, Nitin Yadav, Tian Zhang, Ajit Puthenputhussery, Xunfan Cai, Shuyi Chen, Prijith Chandran, Changsung Kang
分类: cs.IR, cs.LG
发布日期: 2025-05-11
备注: 9 pages, published at WWWW'25
期刊: The Web Conference 2025
💡 一句话要点
提出基于知识蒸馏的电商搜索排序优化框架,提升LLM排序能力并满足低延迟需求。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 大型语言模型 电商搜索 排序模型 数据增强 低延迟 相关性匹配
📋 核心要点
- 电商搜索排序需要保证结果与用户查询相关,但现有深度学习模型在语义理解方面仍有不足,大型语言模型虽强大但延迟高。
- 论文提出知识蒸馏框架,将高性能LLM提炼为低延迟的学生模型,通过学习产品对的相关性差异来提升排序效果。
- 实验表明,通过大量增强数据训练,学生模型性能持续提升,甚至超越教师模型,并在Walmart.com成功部署。
📝 摘要(中文)
为了提升电商搜索结果的相关性,本文提出了一种新颖的知识蒸馏框架,利用大型语言模型(LLM)的排序能力,同时满足生产系统的低延迟需求。该框架首先将LLM训练为具有软目标分类模型,然后训练学生模型,使其能够捕捉给定查询下产品对之间的相关性差异,使用均方误差损失。与教师模型不同,学生模型使用大量无标签数据,并用教师模型的预测结果进行标注,从而显著扩展数据集。实验结果表明,随着增强训练数据规模的增加,学生模型的性能持续提升,甚至可以超越教师模型。该学生模型已成功部署在Walmart.com,并取得了显著的积极效果。
🔬 方法详解
问题定义:电商搜索排序旨在返回与用户查询最相关的商品。现有方法,特别是基于深度学习的模型,在处理复杂语义和长尾查询时仍存在不足。大型语言模型(LLM)虽然具有强大的语义理解能力,但其计算复杂度高,难以满足电商平台对低延迟的严格要求。因此,如何在保证排序质量的同时,降低模型延迟,是本文要解决的核心问题。
核心思路:本文的核心思路是利用知识蒸馏技术,将高性能但高延迟的LLM(教师模型)的知识迁移到低延迟的学生模型中。通过让学生模型学习教师模型的排序行为,使其在保持较低计算复杂度的同时,尽可能地逼近教师模型的排序性能。此外,通过数据增强策略,进一步提升学生模型的泛化能力和排序效果。
技术框架:该框架包含两个主要阶段:教师模型训练和学生模型训练。首先,使用标注数据训练教师LLM,将其作为一个分类模型,输出软目标(soft targets),即每个商品与查询相关的概率分布。然后,利用教师模型的预测结果,对大量无标签数据进行标注,生成增强数据集。最后,使用增强数据集训练学生模型,使其学习捕捉给定查询下产品对之间的相关性差异。学生模型的训练目标是最小化其预测的相关性差异与教师模型预测的相关性差异之间的均方误差。
关键创新:该论文的关键创新在于利用知识蒸馏技术,将LLM的排序能力迁移到低延迟模型,并提出了一种有效的数据增强策略。与传统的知识蒸馏方法不同,本文没有直接使用教师模型的训练数据,而是通过生成大量无标签数据并用教师模型进行标注,显著扩展了学生模型的训练数据集。这种数据增强方法能够有效地提升学生模型的泛化能力和排序效果。
关键设计:在教师模型训练阶段,使用了交叉熵损失函数,并采用软目标作为训练目标。在学生模型训练阶段,使用了均方误差损失函数,目标是最小化学生模型和教师模型预测的相关性差异。此外,数据增强策略是关键,通过生成大量无标签数据,并利用教师模型进行标注,显著扩展了学生模型的训练数据集。具体的网络结构和参数设置未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过知识蒸馏和数据增强,学生模型的性能持续提升,甚至超越了教师模型。该学生模型已成功部署在Walmart.com,并取得了显著的积极效果,具体的性能提升数据未知。该结果验证了所提出框架的有效性和实用性。
🎯 应用场景
该研究成果可广泛应用于电商搜索、信息检索等领域,提升搜索结果的相关性和用户体验。通过知识蒸馏,可以将大型语言模型的强大能力迁移到资源受限的设备或系统中,实现低延迟、高性能的搜索排序。该方法还可扩展到其他需要实时响应的推荐系统和广告投放系统。
📄 摘要(原文)
Ensuring the products displayed in e-commerce search results are relevant to users queries is crucial for improving the user experience. With their advanced semantic understanding, deep learning models have been widely used for relevance matching in search tasks. While large language models (LLMs) offer superior ranking capabilities, it is challenging to deploy LLMs in real-time systems due to the high-latency requirements. To leverage the ranking power of LLMs while meeting the low-latency demands of production systems, we propose a novel framework that distills a high performing LLM into a more efficient, low-latency student model. To help the student model learn more effectively from the teacher model, we first train the teacher LLM as a classification model with soft targets. Then, we train the student model to capture the relevance margin between pairs of products for a given query using mean squared error loss. Instead of using the same training data as the teacher model, we significantly expand the student model dataset by generating unlabeled data and labeling it with the teacher model predictions. Experimental results show that the student model performance continues to improve as the size of the augmented training data increases. In fact, with enough augmented data, the student model can outperform the teacher model. The student model has been successfully deployed in production at Walmart.com with significantly positive metrics.