Contextual Dual Learning Algorithm with Listwise Distillation for Unbiased Learning to Rank

📄 arXiv: 2408.09817v1 📥 PDF

作者: Lulu Yu, Keping Bi, Shiyu Ni, Jiafeng Guo

分类: cs.IR, cs.AI

发布日期: 2024-08-19

备注: 12 pages, 2 figures


💡 一句话要点

提出CDLA-LD算法,通过上下文双重学习和列表式知识蒸馏解决排序学习中的位置偏差和上下文偏差问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无偏排序学习 位置偏差 上下文偏差 双重学习 知识蒸馏 列表式排序 信息检索

📋 核心要点

  1. 现有无偏排序学习方法在真实数据上效果不明确,面临位置偏差和上下文偏差的挑战。
  2. 提出CDLA-LD算法,利用双重学习解决位置偏差,并使用列表式知识蒸馏增强模型泛化能力。
  3. 在公开数据集上的实验表明,该方法能够有效提升排序模型的性能。

📝 摘要(中文)

本文旨在利用有偏的隐式用户反馈(如点击)来优化无偏的排序模型(ULTR)。现有ULTR方法的效果主要在合成数据集上验证,在真实点击数据上的表现尚不明确。本文使用百度公开的大型网络搜索日志数据集的子集(NTCIR-17 ULTRE-2任务)进行实验,评估常用ULTR方法的效果。针对位置偏差和上下文偏差,提出了一种上下文双重学习算法与列表式知识蒸馏(CDLA-LD)相结合的方法。该方法利用列表式输入的排序模型获取包含局部上下文信息的重构特征向量,并采用双重学习算法(DLA)联合训练该排序模型和倾向性模型,以解决位置偏差。为了增强排序模型的泛化能力,还训练了一个点式输入的排序模型,以列表式的方式学习列表式输入排序模型的相关性判断能力。大量实验和分析证实了该方法的有效性。

🔬 方法详解

问题定义:论文旨在解决无偏排序学习(ULTR)中普遍存在的位置偏差和上下文偏差问题。现有ULTR方法在合成数据集上表现良好,但在真实用户点击数据上的效果并不理想。此外,现有方法通常忽略了文档列表中的上下文信息,导致排序模型无法充分利用这些信息进行学习。

核心思路:论文的核心思路是利用上下文双重学习和列表式知识蒸馏,同时解决位置偏差和上下文偏差。通过双重学习,可以联合训练排序模型和倾向性模型,从而消除位置偏差的影响。通过列表式知识蒸馏,可以将列表式输入排序模型的知识迁移到点式输入排序模型,从而提高模型的泛化能力。

技术框架:CDLA-LD算法包含两个主要模块:上下文双重学习模块和列表式知识蒸馏模块。首先,上下文双重学习模块利用列表式输入的排序模型和倾向性模型,通过双重学习算法进行联合训练。列表式输入的排序模型负责学习文档列表的上下文信息,倾向性模型负责估计文档的位置偏差。然后,列表式知识蒸馏模块利用列表式输入的排序模型作为教师模型,训练点式输入的排序模型作为学生模型。学生模型学习教师模型的排序能力,从而提高模型的泛化能力。

关键创新:该方法的主要创新点在于:(1) 提出了上下文双重学习框架,能够同时解决位置偏差和上下文偏差;(2) 采用了列表式知识蒸馏方法,能够将列表式输入排序模型的知识迁移到点式输入排序模型,从而提高模型的泛化能力。与现有方法相比,该方法能够更有效地利用文档列表的上下文信息,并提高排序模型的性能。

关键设计:在上下文双重学习模块中,论文使用了一种基于Transformer的列表式输入排序模型,该模型能够有效地捕捉文档列表的上下文信息。在列表式知识蒸馏模块中,论文使用了一种基于交叉熵损失函数的蒸馏方法,该方法能够有效地将教师模型的排序能力迁移到学生模型。具体的参数设置和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CDLA-LD算法在NTCIR-17 ULTRE-2数据集上取得了显著的性能提升。与现有的ULTR方法相比,CDLA-LD算法在NDCG和MAP等指标上均有明显改善,证明了其在解决位置偏差和上下文偏差方面的有效性。具体提升幅度在论文中有详细数据。

🎯 应用场景

该研究成果可应用于各种信息检索和推荐系统,例如网页搜索、电商推荐、新闻推荐等。通过消除排序结果中的偏差,可以提高用户满意度和平台收益。未来,该方法可以进一步扩展到其他类型的用户反馈数据,例如点击之外的浏览时长、购买行为等,从而构建更加精准和个性化的排序模型。

📄 摘要(原文)

Unbiased Learning to Rank (ULTR) aims to leverage biased implicit user feedback (e.g., click) to optimize an unbiased ranking model. The effectiveness of the existing ULTR methods has primarily been validated on synthetic datasets. However, their performance on real-world click data remains unclear. Recently, Baidu released a large publicly available dataset of their web search logs. Subsequently, the NTCIR-17 ULTRE-2 task released a subset dataset extracted from it. We conduct experiments on commonly used or effective ULTR methods on this subset to determine whether they maintain their effectiveness. In this paper, we propose a Contextual Dual Learning Algorithm with Listwise Distillation (CDLA-LD) to simultaneously address both position bias and contextual bias. We utilize a listwise-input ranking model to obtain reconstructed feature vectors incorporating local contextual information and employ the Dual Learning Algorithm (DLA) method to jointly train this ranking model and a propensity model to address position bias. As this ranking model learns the interaction information within the documents list of the training set, to enhance the ranking model's generalization ability, we additionally train a pointwise-input ranking model to learn the listwise-input ranking model's capability for relevance judgment in a listwise manner. Extensive experiments and analysis confirm the effectiveness of our approach.