Proactive Guidance of Multi-Turn Conversation in Industrial Search

📄 arXiv: 2505.24251v1 📥 PDF

作者: Xiaoyu Li, Xiao Li, Li Gao, Yiding Liu, Xiaoyang Wang, Shuaiqiang Wang, Junfeng Wang, Dawei Yin

分类: cs.CL, cs.IR

发布日期: 2025-05-30

备注: ACL'25 (Industry)


💡 一句话要点

提出双阶段框架,用于工业搜索中多轮对话的主动引导,提升用户交互体验。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 主动引导 工业搜索 知识蒸馏 强化学习 目标跟踪 点击率优化

📋 核心要点

  1. 现有对话系统难以动态适应用户搜索目标的变化,并且难以保证实时交互所需的低延迟。
  2. 提出双阶段框架,利用目标自适应监督微调(G-SFT)和点击导向强化学习(C-RL)实现准确的目标跟踪和交互质量优化。
  3. 实验结果表明,该框架在准确率和点击率方面均有显著提升,同时有效降低了推理延迟。

📝 摘要(中文)

大型语言模型(LLMs)的发展显著提升了多轮对话系统,但也突出了主动引导在增强用户交互方面的重要性。然而,这些系统在动态适应用户目标变化和保持实时交互的低延迟方面面临挑战。在百度搜索AI助手这一工业级多轮搜索系统中,我们提出了一种新颖的两阶段框架来提供主动引导。第一阶段,目标自适应监督微调(G-SFT),采用目标自适应代理,动态适应用户目标变化,并提供与目标相关的上下文信息。G-SFT还结合了可扩展的知识迁移,将LLM的洞察提炼到轻量级模型中,以实现实时交互。第二阶段,点击导向强化学习(C-RL),采用生成-排序范式,系统地从用户点击信号中构建偏好对,并通过更具吸引力的引导主动提高点击率。这种双阶段架构实现了互补的目标:G-SFT确保准确的目标跟踪,而C-RL通过点击信号驱动的强化学习优化交互质量。大量实验表明,我们的框架在离线评估中实现了86.10%的准确率(比基线提高23.95%),在线部署中实现了25.28%的点击率(相对提高149.06%),同时通过可扩展的知识蒸馏将推理延迟降低了69.55%。

🔬 方法详解

问题定义:论文旨在解决工业搜索场景下,多轮对话系统难以有效引导用户,导致用户交互体验不佳的问题。现有方法通常难以兼顾用户目标动态变化、实时交互延迟以及引导质量等多方面因素。

核心思路:论文的核心思路是采用一个双阶段框架,将目标跟踪和交互优化解耦。第一阶段使用目标自适应监督微调(G-SFT)来准确跟踪用户目标,第二阶段使用点击导向强化学习(C-RL)来优化交互质量,从而实现更有效的主动引导。

技术框架:整体框架包含两个阶段:G-SFT和C-RL。G-SFT阶段首先利用目标自适应代理动态适应用户目标变化,并提供目标相关的上下文信息。然后,通过可扩展的知识迁移,将大型语言模型的知识蒸馏到轻量级模型中。C-RL阶段采用生成-排序范式,根据用户点击信号构建偏好对,并通过强化学习优化引导策略。

关键创新:该方法的主要创新在于双阶段框架的设计,将目标跟踪和交互优化分离,并分别使用监督学习和强化学习进行优化。此外,G-SFT阶段的可扩展知识迁移和C-RL阶段的点击信号驱动的强化学习也是重要的创新点。

关键设计:G-SFT阶段,目标自适应代理的具体实现方式(例如,如何建模用户目标变化)以及知识蒸馏的具体策略(例如,使用哪些损失函数)是关键设计。C-RL阶段,如何构建有效的偏好对以及如何设计奖励函数是关键设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该框架在离线评估中实现了86.10%的准确率,相比基线提升了23.95%。在线部署中,点击率达到了25.28%,相对提升高达149.06%。同时,通过可扩展的知识蒸馏,推理延迟降低了69.55%,显著提升了系统的实时性。

🎯 应用场景

该研究成果可应用于各种工业级搜索AI助手,提升用户在多轮对话中的搜索体验。通过更准确的目标跟踪和更具吸引力的引导,可以提高用户满意度,并最终提升搜索平台的商业价值。该方法也为其他多轮对话系统的设计提供了参考。

📄 摘要(原文)

The evolution of Large Language Models (LLMs) has significantly advanced multi-turn conversation systems, emphasizing the need for proactive guidance to enhance users' interactions. However, these systems face challenges in dynamically adapting to shifts in users' goals and maintaining low latency for real-time interactions. In the Baidu Search AI assistant, an industrial-scale multi-turn search system, we propose a novel two-phase framework to provide proactive guidance. The first phase, Goal-adaptive Supervised Fine-Tuning (G-SFT), employs a goal adaptation agent that dynamically adapts to user goal shifts and provides goal-relevant contextual information. G-SFT also incorporates scalable knowledge transfer to distill insights from LLMs into a lightweight model for real-time interaction. The second phase, Click-oriented Reinforcement Learning (C-RL), adopts a generate-rank paradigm, systematically constructs preference pairs from user click signals, and proactively improves click-through rates through more engaging guidance. This dual-phase architecture achieves complementary objectives: G-SFT ensures accurate goal tracking, while C-RL optimizes interaction quality through click signal-driven reinforcement learning. Extensive experiments demonstrate that our framework achieves 86.10% accuracy in offline evaluation (+23.95% over baseline) and 25.28% CTR in online deployment (149.06% relative improvement), while reducing inference latency by 69.55% through scalable knowledge distillation.