LORE: A Large Generative Model for Search Relevance

📄 arXiv: 2512.03025v3 📥 PDF

作者: Chenji Lu, Zhuo Chen, Hui Zhao, Zhiyuan Zeng, Gang Zhao, Junjie Ren, Ruicong Xu, Haoran Li, Songyan Liu, Pengjie Wang, Jian Xu, Bo Zheng

分类: cs.IR, cs.AI, cs.CL, cs.LG

发布日期: 2025-12-02 (更新: 2026-01-06)


💡 一句话要点

LORE:电商搜索领域基于大型生成模型的相关性框架,提升GoodRate指标27%。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电商搜索 大型语言模型 相关性排序 思维链 强化学习

📋 核心要点

  1. 现有方法将相关性视为单一任务,缺乏有效分解,导致性能受限。
  2. LORE将相关性分解为知识推理、多模态匹配和规则遵守等核心能力,并针对性地进行优化。
  3. LORE通过两阶段训练和分层部署,在电商搜索GoodRate指标上实现了显著提升。

📝 摘要(中文)

本文介绍LORE,一个基于大型生成模型(LLM)的电商搜索相关性系统框架。经过三年部署和迭代,LORE在在线GoodRate指标上实现了累计+27%的提升。本文分享了在LORE开发生命周期中获得的宝贵经验,涵盖数据、特征、训练、评估和部署等方面。现有工作通常采用思维链(CoT)来增强相关性,但往往遇到性能瓶颈。我们认为这源于将相关性视为一个单一的任务,缺乏原则性的解构。我们的关键洞察是,相关性包含不同的能力:知识和推理、多模态匹配和规则遵守。我们认为,定性驱动的分解对于突破当前的性能瓶颈至关重要。LORE为LLM相关性的生命周期提供了一个完整的蓝图。主要贡献包括:(1)一个两阶段训练范式,结合了通过SFT进行的渐进式CoT合成和通过RL进行的人类偏好对齐。(2)一个全面的基准RAIR,旨在评估这些核心能力。(3)一种查询频率分层的部署策略,可有效地将离线LLM能力转移到在线系统。LORE既是实际的解决方案,又是其他垂直领域的方法论参考。

🔬 方法详解

问题定义:论文旨在解决电商搜索中相关性排序的问题。现有方法,特别是基于思维链(CoT)的方法,将相关性视为一个整体,忽略了其内在的复杂性,导致性能提升遇到瓶颈。这些方法难以有效处理知识推理、多模态匹配和规则遵守等多种能力的需求。

核心思路:LORE的核心思路是将相关性分解为多个不同的能力,包括知识和推理、多模态匹配以及规则遵守。通过对这些能力进行针对性的建模和优化,可以更有效地提升搜索相关性。这种分解的思路是基于对相关性任务的深入理解,并认为定性分析是突破性能瓶颈的关键。

技术框架:LORE框架包含数据准备、模型训练、评估和部署等多个阶段。模型训练采用两阶段范式:首先,通过监督微调(SFT)进行渐进式CoT合成,使模型具备初步的推理能力;然后,通过强化学习(RL)进行人类偏好对齐,使模型输出更符合用户的期望。为了评估模型在不同能力上的表现,论文提出了一个综合基准RAIR。最后,采用查询频率分层部署策略,将离线训练的模型部署到在线系统中。

关键创新:LORE的关键创新在于对相关性任务的解构,以及基于解构的针对性训练和评估方法。与现有方法将相关性视为单一任务不同,LORE将相关性分解为多个核心能力,并针对这些能力设计了相应的训练和评估策略。此外,两阶段训练范式和查询频率分层部署策略也是重要的创新点。

关键设计:在两阶段训练中,SFT阶段使用CoT数据进行训练,引导模型学习推理过程。RL阶段使用人类标注的偏好数据,通过奖励函数来优化模型的输出。RAIR基准包含多个子任务,分别评估模型在知识推理、多模态匹配和规则遵守等方面的能力。查询频率分层部署策略根据查询的频率将流量分配给不同的模型版本,以平衡性能和成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LORE在在线A/B测试中,相对于现有基线系统,实现了GoodRate指标累计+27%的显著提升。RAIR基准测试表明,LORE在知识推理、多模态匹配和规则遵守等多个方面均优于现有方法。这些实验结果验证了LORE框架的有效性和优越性。

🎯 应用场景

LORE框架可应用于各种电商搜索场景,提升搜索结果的相关性和用户满意度。该方法论也可推广到其他垂直领域的搜索和推荐系统,例如新闻推荐、视频搜索等,具有广泛的应用前景和实际价值。未来可以探索更细粒度的相关性分解和更高效的训练方法。

📄 摘要(原文)

Achievement. We introduce LORE, a systematic framework for Large Generative Model-based relevance in e-commerce search. Deployed and iterated over three years, LORE achieves a cumulative +27\% improvement in online GoodRate metrics. This report shares the valuable experience gained throughout its development lifecycle, spanning data, features, training, evaluation, and deployment. Insight. While existing works apply Chain-of-Thought (CoT) to enhance relevance, they often hit a performance ceiling. We argue this stems from treating relevance as a monolithic task, lacking principled deconstruction. Our key insight is that relevance comprises distinct capabilities: knowledge and reasoning, multi-modal matching, and rule adherence. We contend that a qualitative-driven decomposition is essential for breaking through current performance bottlenecks. Contributions. LORE provides a complete blueprint for the LLM relevance lifecycle. Key contributions include: (1) A two-stage training paradigm combining progressive CoT synthesis via SFT with human preference alignment via RL. (2) A comprehensive benchmark, RAIR, designed to evaluate these core capabilities. (3) A query frequency-stratified deployment strategy that efficiently transfers offline LLM capabilities to the online system. LORE serves as both a practical solution and a methodological reference for other vertical domains.