Quality Over Clicks: Intrinsic Quality-Driven Iterative Reinforcement Learning for Cold-Start E-Commerce Query Suggestion

作者: Qi Sun, Kejun Xiao, Huaipeng Zhao, Tao Luo, Xiaoyi Zeng

分类: cs.CL

发布日期: 2026-03-24

备注: Submitted to ACL 2026 Industry Track

💡 一句话要点

提出Cold-EQS，利用内在质量驱动的迭代强化学习解决电商冷启动查询推荐问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 冷启动 查询推荐 强化学习 内在质量 电商 迭代学习 用户参与度

📋 核心要点

现有查询推荐方法依赖大量点击数据训练点击率模型，在电商冷启动场景下效果不佳。
Cold-EQS利用可回答性、事实性和信息增益作为奖励，通过迭代强化学习优化推荐查询质量。
实验结果表明，Cold-EQS在在线chatUV方面取得了显著提升，验证了其在冷启动场景下的有效性。

📝 摘要（中文）

现有的对话系统依赖于查询推荐（QS）来增强用户参与度。最近的研究通常采用大型语言模型与点击率（CTR）模型，但由于它们严重依赖大量的在线点击数据来有效训练CTR模型，因此在冷启动场景中表现不佳。为了弥合这一差距，我们提出了Cold-EQS，一个用于冷启动电商查询推荐（EQS）的迭代强化学习框架。具体来说，我们利用可回答性、事实性和信息增益作为奖励，以持续优化推荐查询的质量。为了持续优化我们的QS模型，我们估计分组候选推荐查询的不确定性，以从缺乏点击信号的在线用户查询中选择困难和模糊的样本。此外，我们提供了一个EQS-Benchmark，包含16,949个在线用户查询，用于离线训练和评估。大量的离线和在线实验一致表明在线和离线有效性之间存在很强的正相关关系。离线和在线实验结果都证明了我们的Cold-EQS的优越性，在在线chatUV方面实现了显著的+6.81%的提升。

🔬 方法详解

问题定义：论文旨在解决电商场景下冷启动查询推荐的问题。现有方法依赖于点击率模型，需要大量用户点击数据进行训练，这在冷启动阶段是无法满足的。因此，如何在缺乏用户行为数据的情况下，提升查询推荐的质量，是本研究要解决的核心问题。

核心思路：论文的核心思路是利用内在质量（Intrinsic Quality）来驱动查询推荐模型的训练。具体来说，通过可回答性、事实性和信息增益这三个指标来衡量推荐查询的质量，并将其作为强化学习的奖励信号。这样，模型可以在没有用户点击数据的情况下，通过优化内在质量来提升推荐效果。

技术框架：Cold-EQS是一个迭代强化学习框架，主要包含以下几个模块：1) 查询生成模块：负责生成候选的推荐查询；2) 质量评估模块：负责评估候选查询的可回答性、事实性和信息增益；3) 强化学习模块：利用质量评估结果作为奖励，优化查询生成模块的策略；4) 难例挖掘模块：估计候选查询的不确定性，选择困难和模糊的样本，用于模型的持续优化。整个流程通过迭代的方式进行，不断提升查询推荐的质量。

关键创新：该论文的关键创新在于将内在质量引入到冷启动查询推荐中，并将其作为强化学习的奖励信号。与传统的基于点击率的方法不同，Cold-EQS不需要用户行为数据，而是通过优化查询本身的质量来提升推荐效果。此外，难例挖掘模块的设计也能够有效地提升模型的泛化能力。

关键设计：在质量评估模块中，可回答性可以通过预训练的问答模型来评估，事实性可以通过知识图谱来验证，信息增益可以通过计算查询与用户意图之间的相关性来估计。在强化学习模块中，可以使用常见的策略梯度算法，如REINFORCE或Actor-Critic。难例挖掘模块可以通过计算查询生成模块输出的概率分布的熵来估计不确定性。

🖼️ 关键图片

📊 实验亮点

论文通过离线和在线实验验证了Cold-EQS的有效性。离线实验表明，Cold-EQS在多个指标上优于基线方法。在线实验结果显示，Cold-EQS在在线chatUV方面取得了+6.81%的显著提升，证明了其在实际应用中的价值。此外，论文还构建了一个包含16,949个在线用户查询的EQS-Benchmark，为后续研究提供了数据支持。

🎯 应用场景

该研究成果可应用于各种电商平台的冷启动查询推荐场景，尤其是在新品上线或用户兴趣未知的情况下。通过提升推荐查询的质量，可以有效提高用户参与度、改善用户体验，并最终促进销售额的增长。未来，该方法还可以扩展到其他类型的推荐系统，如新闻推荐、视频推荐等。

📄 摘要（原文）

Existing dialogue systems rely on Query Suggestion (QS) to enhance user engagement. Recent efforts typically employ large language models with Click-Through Rate (CTR) model, yet fail in cold-start scenarios due to their heavy reliance on abundant online click data for effective CTR model training. To bridge this gap, we propose Cold-EQS, an iterative reinforcement learning framework for Cold-Start E-commerce Query Suggestion (EQS). Specifically, we leverage answerability, factuality, and information gain as reward to continuously optimize the quality of suggested queries. To continuously optimize our QS model, we estimate uncertainty for grouped candidate suggested queries to select hard and ambiguous samples from online user queries lacking click signals. In addition, we provide an EQS-Benchmark comprising 16,949 online user queries for offline training and evaluation. Extensive offline and online experiments consistently demonstrate a strong positive correlation between online and offline effectiveness. Both offline and online experimental results demonstrate the superiority of our Cold-EQS, achieving a significant +6.81% improvement in online chatUV.

Quality Over Clicks: Intrinsic Quality-Driven Iterative Reinforcement Learning for Cold-Start E-Commerce Query Suggestion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理