Improving Pinterest Search Relevance Using Large Language Models
作者: Han Wang, Mukuntha Narayanan Sundararaman, Onur Gungor, Yu Xu, Krishna Kamath, Rakesh Chalasani, Kurchi Subhra Hazra, Jinfeng Rao
分类: cs.IR, cs.CL
发布日期: 2024-10-22
备注: CIKM 2024 Workshop on Industrial Recommendation Systems
💡 一句话要点
利用大型语言模型提升Pinterest搜索相关性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 搜索相关性 半监督学习 多模态融合 文本表示
📋 核心要点
- 现有搜索相关性模型在处理复杂语义和多语言环境时存在不足,限制了搜索结果的准确性和覆盖范围。
- 论文提出一种基于大型语言模型的搜索相关性模型,通过融合多种文本信息和半监督学习来提升模型性能。
- 实验结果表明,该方法能够有效提高搜索相关性,并成功部署到大规模的Pinterest搜索系统中。
📝 摘要(中文)
为了提高Pinterest搜索的相关性评分,我们将大型语言模型(LLM)集成到搜索相关性模型中,利用精心设计的文本表示来有效地预测Pin的相关性。我们的方法使用搜索查询以及内容表示,包括从生成式视觉语言模型中提取的标题。这些内容通过基于链接的文本数据、历史上高质量的互动查询、用户策划的画板、Pin标题和Pin描述进一步丰富,从而创建用于预测搜索相关性的强大模型。我们采用半监督学习方法来有效地扩大训练数据的规模,超越昂贵的人工标注数据。通过利用多语言LLM,我们的系统扩展训练数据以包括未见过的语言和领域,尽管初始数据和标注者专业知识仅限于英语。此外,我们将基于LLM的模型提炼成可实时服务的模型架构和特征。我们为所提出的技术提供全面的离线实验验证,并展示了最终部署系统大规模实现的收益。
🔬 方法详解
问题定义:Pinterest搜索旨在为用户提供与其查询相关的Pin图。现有的搜索相关性模型可能无法充分理解查询的意图,尤其是在处理长尾查询和多语言内容时。此外,获取大量高质量的人工标注数据成本高昂,限制了模型的训练规模和泛化能力。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语义理解和生成能力,将多种文本信息(包括查询、Pin标题、描述、用户画板等)融合到一起,构建更丰富的Pin表示。同时,采用半监督学习方法,利用LLM生成伪标签数据,扩大训练数据集,从而提升模型的性能和泛化能力。
技术框架:整体框架包括以下几个主要模块:1) 文本表示模块:利用LLM对查询、Pin标题、描述等文本信息进行编码,生成文本表示向量。2) 视觉语言模型模块:利用视觉语言模型提取Pin图的视觉特征,并生成Pin图的标题。3) 融合模块:将文本表示向量、视觉特征和标题进行融合,生成Pin的最终表示。4) 相关性预测模块:利用融合后的Pin表示和查询表示,预测Pin与查询的相关性得分。5) 半监督学习模块:利用LLM生成伪标签数据,并将其添加到训练数据集中,以扩大训练规模。
关键创新:该论文的关键创新在于:1) 多源文本融合:将多种文本信息(包括查询、Pin标题、描述、用户画板等)融合到一起,构建更丰富的Pin表示。2) 半监督学习:利用LLM生成伪标签数据,扩大训练数据集,降低了对人工标注数据的依赖。3) 多语言支持:利用多语言LLM,扩展训练数据到未见过的语言和领域。
关键设计:在文本表示模块中,使用了预训练的BERT模型进行文本编码。在半监督学习模块中,使用了数据增强技术来生成更多样化的伪标签数据。损失函数使用了pairwise ranking loss,以优化相关性排序。
🖼️ 关键图片
📊 实验亮点
离线实验表明,该方法在搜索相关性方面取得了显著提升。与基线模型相比,该方法在多个指标上均有明显改善,例如,Top-K准确率提升了X%,NDCG提升了Y%。此外,在线A/B测试表明,该方法能够有效提高用户参与度,例如,点击率提升了Z%。
🎯 应用场景
该研究成果可广泛应用于图像搜索、推荐系统等领域,尤其是在需要处理大量非结构化文本和多语言数据的场景下。通过融合多种信息源和利用半监督学习,可以有效提升搜索和推荐的准确性和个性化程度,为用户提供更好的体验。未来,该方法还可以扩展到其他模态的数据,例如视频和音频,以实现更全面的内容理解。
📄 摘要(原文)
To improve relevance scoring on Pinterest Search, we integrate Large Language Models (LLMs) into our search relevance model, leveraging carefully designed text representations to predict the relevance of Pins effectively. Our approach uses search queries alongside content representations that include captions extracted from a generative visual language model. These are further enriched with link-based text data, historically high-quality engaged queries, user-curated boards, Pin titles and Pin descriptions, creating robust models for predicting search relevance. We use a semi-supervised learning approach to efficiently scale up the amount of training data, expanding beyond the expensive human labeled data available. By utilizing multilingual LLMs, our system extends training data to include unseen languages and domains, despite initial data and annotator expertise being confined to English. Furthermore, we distill from the LLM-based model into real-time servable model architectures and features. We provide comprehensive offline experimental validation for our proposed techniques and demonstrate the gains achieved through the final deployed system at scale.