OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

作者: Ben Chen, Siyuan Wang, Yufei Ma, Zihan Liang, Xuxin Zhang, Yue Lv, Ying Yang, Huangyu Dai, Lingtao Mao, Tong Zhao, Zhipeng Qian, Xinyu Sun, Zhixin Zhai, Yang Zhao, Bochao Liu, Jingshan Lv, Xiao Liang, Hui Kong, Jing Chen, Han Li, Chenyi Lei, Wenwu Ou, Kun Gai

分类: cs.IR, cs.AI, cs.CL

发布日期: 2026-03-25

备注: Key codes are available at https://github.com/benchen4395/onesearch-family. Feel free to contact benchen4395@gmail.com

💡 一句话要点

提出OneSearch-V2，通过潜在推理增强的自蒸馏生成式搜索框架，提升电商搜索效果。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 生成式检索 自蒸馏 电商搜索 查询理解 用户意图挖掘 行为偏好对齐 信息茧房 奖励黑客

📋 核心要点

现有生成式搜索框架在理解复杂查询、挖掘用户潜在意图以及避免过度拟合历史偏好方面存在不足。
OneSearch-V2通过思想增强的查询理解、推理内在化的自蒸馏训练和行为偏好对齐优化来解决上述问题。
实验结果表明，OneSearch-V2显著提升了商品点击率、买家转化率和订单量，并改善了搜索体验质量。

📝 摘要（中文）

生成式检索(GR)已成为现代搜索系统的一种有前景的范例。与多阶段级联架构相比，它具有端到端联合优化和高计算效率等优点。OneSearch作为一个具有代表性的工业级部署的生成式搜索框架，带来了显著的商业和运营效益。然而，它对复杂查询的理解不足、对潜在用户意图的利用效率低下以及对狭隘历史偏好的过度拟合限制了其性能的进一步提升。为了解决这些挑战，我们提出了OneSearch-V2，一个潜在推理增强的自蒸馏生成式搜索框架。它包含三个关键创新：(1)一个思想增强的复杂查询理解模块，它能够进行深度查询理解，并克服直接推理的浅层语义匹配限制；(2)一个推理内在化的自蒸馏训练管道，它通过隐式的上下文学习，揭示了用户潜在但精确的电商意图，超越了日志拟合；(3)一个行为偏好对齐优化系统，它缓解了由单一转化指标引起的奖励黑客问题，并通过直接用户反馈解决了个性化偏好。大量的离线评估表明OneSearch-V2具有强大的查询识别和用户画像能力。在线A/B测试进一步验证了其业务有效性，产生了+3.98%的商品点击率、+3.05%的买家转化率和+2.11%的订单量。人工评估进一步证实了搜索体验质量的提升，页面良好率提高了+1.65%，查询-商品相关性提高了+1.37%。更重要的是，OneSearch-V2有效地缓解了常见搜索系统问题，如信息茧房和长尾稀疏性，而不会产生额外的推理成本或服务延迟。

🔬 方法详解

问题定义：现有生成式搜索框架，如OneSearch，在处理复杂查询时，语义理解不够深入，无法充分挖掘用户潜在的电商意图。同时，模型容易过度拟合用户的历史行为，导致信息茧房效应，并且难以有效处理长尾商品的推荐。这些问题限制了搜索效果的进一步提升。

核心思路：OneSearch-V2的核心思路是通过引入潜在推理来增强模型对复杂查询的理解能力，并利用自蒸馏技术从模型自身挖掘潜在的用户意图，从而克服对历史数据的过度依赖。此外，通过行为偏好对齐优化，解决单一转化指标带来的奖励黑客问题，并结合用户反馈进行个性化推荐。

技术框架：OneSearch-V2包含三个主要模块：(1) 思想增强的复杂查询理解模块，用于进行深度查询理解；(2) 推理内在化的自蒸馏训练管道，用于挖掘用户潜在意图；(3) 行为偏好对齐优化系统，用于缓解奖励黑客问题和实现个性化推荐。整体流程是，首先通过查询理解模块解析用户查询，然后利用自蒸馏训练管道学习用户潜在意图，最后通过行为偏好对齐优化系统进行排序和推荐。

关键创新：OneSearch-V2的关键创新在于：(1) 引入了“思想增强”的概念，通过模拟人类思考过程，提升了模型对复杂查询的理解能力，克服了传统方法中浅层语义匹配的局限性。(2) 提出了“推理内在化的自蒸馏训练”方法，通过让模型自身进行推理，挖掘潜在的用户意图，避免了对历史数据的过度依赖。(3) 设计了“行为偏好对齐优化系统”，通过多目标优化和用户反馈，缓解了奖励黑客问题，并实现了更个性化的推荐。

关键设计：在查询理解模块中，可能使用了预训练语言模型（如BERT）进行语义编码，并引入了注意力机制来关注查询中的关键信息。在自蒸馏训练中，可能使用了知识蒸馏损失函数，鼓励学生模型学习教师模型的推理能力。在行为偏好对齐优化中，可能使用了多目标排序模型，同时优化点击率、转化率等多个指标，并结合用户反馈进行模型调整。具体的网络结构和参数设置未知，需要参考论文细节。

🖼️ 关键图片

📊 实验亮点

OneSearch-V2在线A/B测试结果显示，商品点击率提升了3.98%，买家转化率提升了3.05%，订单量提升了2.11%。人工评估结果表明，页面良好率提高了1.65%，查询-商品相关性提高了1.37%。这些数据表明OneSearch-V2在提升搜索效果和用户体验方面取得了显著进展。

🎯 应用场景

OneSearch-V2可广泛应用于电商搜索、信息检索等领域，能够提升搜索结果的相关性和用户满意度，缓解信息茧房效应，并有效处理长尾商品推荐问题。该研究成果具有重要的实际应用价值，有助于构建更智能、更个性化的搜索系统，并促进电商行业的发展。

📄 摘要（原文）

Generative Retrieval (GR) has emerged as a promising paradigm for modern search systems. Compared to multi-stage cascaded architecture, it offers advantages such as end-to-end joint optimization and high computational efficiency. OneSearch, as a representative industrial-scale deployed generative search framework, has brought significant commercial and operational benefits. However, its inadequate understanding of complex queries, inefficient exploitation of latent user intents, and overfitting to narrow historical preferences have limited its further performance improvement. To address these challenges, we propose \textbf{OneSearch-V2}, a latent reasoning enhanced self-distillation generative search framework. It contains three key innovations: (1) a thought-augmented complex query understanding module, which enables deep query understanding and overcomes the shallow semantic matching limitations of direct inference; (2) a reasoning-internalized self-distillation training pipeline, which uncovers users' potential yet precise e-commerce intentions beyond log-fitting through implicit in-context learning; (3) a behavior preference alignment optimization system, which mitigates reward hacking arising from the single conversion metric, and addresses personal preference via direct user feedback. Extensive offline evaluations demonstrate OneSearch-V2's strong query recognition and user profiling capabilities. Online A/B tests further validate its business effectiveness, yielding +3.98\% item CTR, +3.05\% buyer conversion rate, and +2.11\% order volume. Manual evaluation further confirms gains in search experience quality, with +1.65\% in page good rate and +1.37\% in query-item relevance. More importantly, OneSearch-V2 effectively mitigates common search system issues such as information bubbles and long-tail sparsity, without incurring additional inference costs or serving latency.

OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理