Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation
作者: Ruijie Xi, He Ba, Hao Yuan, Rishu Agrawal, Yuxin Tian, Ruoyan Kong, Arul Prakash
分类: cs.IR, cs.CL
发布日期: 2025-05-21 (更新: 2025-06-24)
💡 一句话要点
Aug2Search:利用LLM生成合成数据增强Facebook Marketplace搜索效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 合成数据增强 大型语言模型 电商搜索 嵌入式检索 Facebook Marketplace
📋 核心要点
- Facebook Marketplace等平台搜索日志数据缺乏多样性和细节,限制了EBR模型捕捉细微搜索模式的能力。
- 提出Aug2Search框架,利用LLM生成高质量合成数据,以多模态和多任务方式优化查询-产品相关性,增强EBR模型。
- 实验表明,Llama模型能生成高一致性、相关性和多样性的合成数据,Aug2Search使ROC_AUC提升高达4%。
📝 摘要(中文)
基于嵌入的检索(EBR)是现代搜索引擎中的一项重要技术,它实现了搜索查询和相关结果之间的语义匹配。然而,像Facebook Marketplace这样的平台上的搜索日志数据缺乏有效EBR模型训练所需的多样性和细节,限制了模型捕捉细微搜索模式的能力。为了应对这一挑战,我们提出了Aug2Search,这是一个基于EBR的框架,利用生成式AI(GenAI)模型生成的合成数据,以多模态和多任务的方式优化查询-产品相关性。本文研究了GenAI,特别是大型语言模型(LLM)在生成高质量合成数据方面的能力,并分析了其对增强EBR模型的影响。我们使用来自Facebook Marketplace日志的8个Llama模型和1亿个数据点进行了实验。我们的合成数据生成遵循三种策略:(1)生成查询,(2)增强产品列表,(3)从增强的列表生成查询。我们使用三种不同的数据集训练EBR模型:采样的互动数据或原始数据(例如,“点击”和“列表互动”)、合成数据以及互动数据和合成数据的混合数据,以评估它们在各种训练集上的性能。我们的发现强调了Llama模型在生成具有高一致性、相关性和多样性的合成查询和列表方面的鲁棒性,同时保持较低的幻觉水平。Aug2Search在使用1亿个合成数据样本的情况下,ROC_AUC提高了高达4%,证明了我们方法的有效性。此外,我们的实验表明,在相同数量的训练数据下,仅使用合成数据训练的模型通常优于仅使用原始数据或原始数据和合成数据混合训练的模型。
🔬 方法详解
问题定义:论文旨在解决Facebook Marketplace等平台搜索场景下,由于搜索日志数据缺乏多样性和细节,导致基于嵌入的检索(EBR)模型难以有效捕捉用户细微搜索意图的问题。现有方法依赖于原始用户行为数据,但这些数据往往存在偏差和覆盖不足的缺陷。
核心思路:论文的核心思路是利用大型语言模型(LLM)生成高质量的合成数据,作为原始数据的补充或替代,从而增强EBR模型的训练效果。通过模拟真实用户的搜索行为和产品特性,LLM可以生成更多样化、更具代表性的数据,弥补原始数据的不足。
技术框架:Aug2Search框架包含以下几个主要阶段:1) 数据准备:收集Facebook Marketplace的原始搜索日志数据。2) 合成数据生成:使用Llama模型生成三种类型的合成数据:合成查询、增强的产品列表以及从增强列表中生成的查询。3) EBR模型训练:使用原始数据、合成数据以及原始数据和合成数据的混合数据训练EBR模型。4) 模型评估:评估不同训练数据集下EBR模型的性能,并与基线模型进行比较。
关键创新:该论文的关键创新在于将LLM应用于电商搜索场景的合成数据生成,并探索了不同的合成数据生成策略。与传统的基于规则或统计模型的合成数据生成方法相比,LLM能够生成更自然、更具语义相关性的数据,从而更有效地提升EBR模型的性能。
关键设计:论文采用了三种合成数据生成策略:(1)直接生成查询,模拟用户搜索意图;(2)增强产品列表,增加产品描述的多样性和细节;(3)从增强的产品列表中生成查询,模拟用户根据产品特性进行搜索的行为。实验中使用了8个Llama模型,并使用了1亿个数据点进行训练。性能评估指标主要为ROC_AUC。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Aug2Search框架在使用1亿个合成数据样本的情况下,ROC_AUC提高了高达4%。更重要的是,在相同数据量下,仅使用合成数据训练的模型性能通常优于仅使用原始数据或混合数据训练的模型,这表明LLM生成的合成数据具有很高的质量和有效性。
🎯 应用场景
该研究成果可应用于各种电商平台的搜索推荐系统,尤其是在数据稀疏或存在偏差的情况下。通过生成高质量的合成数据,可以有效提升搜索结果的相关性和用户体验。此外,该方法还可以扩展到其他领域,例如广告推荐、内容推荐等,具有广泛的应用前景。
📄 摘要(原文)
Embedding-Based Retrieval (EBR) is an important technique in modern search engines, enabling semantic match between search queries and relevant results. However, search logging data on platforms like Facebook Marketplace lacks the diversity and details needed for effective EBR model training, limiting the models' ability to capture nuanced search patterns. To address this challenge, we propose Aug2Search, an EBR-based framework leveraging synthetic data generated by Generative AI (GenAI) models, in a multimodal and multitask approach to optimize query-product relevance. This paper investigates the capabilities of GenAI, particularly Large Language Models (LLMs), in generating high-quality synthetic data, and analyzing its impact on enhancing EBR models. We conducted experiments using eight Llama models and 100 million data points from Facebook Marketplace logs. Our synthetic data generation follows three strategies: (1) generate queries, (2) enhance product listings, and (3) generate queries from enhanced listings. We train EBR models on three different datasets: sampled engagement data or original data ((e.g., "Click" and "Listing Interactions")), synthetic data, and a mixture of both engagement and synthetic data to assess their performance across various training sets. Our findings underscore the robustness of Llama models in producing synthetic queries and listings with high coherence, relevance, and diversity, while maintaining low levels of hallucination. Aug2Search achieves an improvement of up to 4% in ROC_AUC with 100 million synthetic data samples, demonstrating the effectiveness of our approach. Moreover, our experiments reveal that with the same volume of training data, models trained exclusively on synthetic data often outperform those trained on original data only or a mixture of original and synthetic data.