Neural Machine Unranking

📄 arXiv: 2408.05330v3 📥 PDF

作者: Jingrui Hou, Axel Finke, Georgina Cosma

分类: cs.IR, cs.AI

发布日期: 2024-08-09 (更新: 2025-07-24)


💡 一句话要点

提出CoCoL框架,解决神经信息检索中选择性信息移除的难题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 神经信息检索 机器遗忘 数据隐私 对比学习 一致性学习 反排序 选择性信息移除

📋 核心要点

  1. 现有遗忘方法在神经排序任务中表现不佳,因为神经排序器输出未归一化的相关性分数,且存在查询和文档的纠缠数据。
  2. 提出对比一致性损失(CoCoL)框架,通过对比损失降低遗忘集相关性,一致性损失保持保留集准确性,解决上述问题。
  3. 在MS MARCO和TREC CAR数据集上的实验表明,CoCoL在实现显著遗忘的同时,最小化了保留和泛化性能的损失。

📝 摘要(中文)

本文研究了神经信息检索(IR)中的机器遗忘问题,并提出了一个名为神经机器反排序(NuMuR)的新任务。该任务的动机是日益增长的数据隐私合规性需求以及在神经IR系统中选择性地移除信息的需求。现有的任务或模型无关的遗忘方法,主要为分类任务设计,对于NuMuR来说并非最优,原因在于两个核心挑战:(1)神经排序器输出的是未归一化的相关性分数,而不是概率分布,限制了传统师生蒸馏框架的有效性;(2)纠缠数据场景,即查询和文档同时出现在遗忘集和保留集中,可能会降低现有方法的保留性能。为了解决这些问题,我们提出了对比一致性损失(CoCoL),这是一个双目标框架。CoCoL包括:(1)一个对比损失,用于降低遗忘集上的相关性分数,同时保持纠缠样本上的性能;(2)一个一致性损失,用于保持保留集上的准确性。在MS MARCO和TREC CAR数据集上,对四种神经IR模型进行的大量实验表明,CoCoL在实现显著遗忘的同时,最大限度地减少了保留和泛化性能的损失。我们的方法比现有技术更有效地促进了可控的数据移除。

🔬 方法详解

问题定义:论文旨在解决神经信息检索系统中选择性信息移除的问题,即“神经机器反排序(NuMuR)”任务。现有遗忘方法,尤其是为分类任务设计的,在神经排序任务中表现不佳。主要痛点在于神经排序器输出的是未归一化的相关性分数,这使得传统的基于概率分布的师生蒸馏框架失效。此外,查询和文档可能同时出现在遗忘集和保留集中,导致“纠缠数据”问题,进一步降低了现有方法的保留性能。

核心思路:论文的核心思路是设计一个双目标损失函数,既能有效“遗忘”指定数据,又能尽可能保留模型在未遗忘数据上的性能。具体来说,通过对比损失来降低模型对遗忘数据的相关性评分,同时通过一致性损失来保持模型对保留数据的准确性。这种设计旨在平衡遗忘和保留之间的矛盾,从而实现更有效的选择性信息移除。

技术框架:CoCoL框架包含两个主要组成部分:对比损失和一致性损失。首先,对于遗忘集中的数据,对比损失会惩罚模型给出的高相关性评分,促使模型降低这些数据的排序。其次,对于保留集中的数据,一致性损失会鼓励模型保持原有的排序能力,确保模型在这些数据上的性能不受遗忘过程的影响。这两个损失函数共同作用,使得模型能够在遗忘特定信息的同时,尽可能地保留原有知识。

关键创新:CoCoL的关键创新在于其双目标损失函数的设计,它针对神经排序任务的特殊性进行了优化。与传统的遗忘方法相比,CoCoL能够更好地处理未归一化的相关性分数和纠缠数据问题。通过对比损失和一致性损失的协同作用,CoCoL能够在实现有效遗忘的同时,最大限度地减少对保留和泛化性能的影响。

关键设计:对比损失的具体形式可以是多种,例如hinge loss或者margin ranking loss,目标是拉开遗忘数据和保留数据之间的相关性评分差距。一致性损失通常采用交叉熵损失或者均方误差损失,用于衡量模型在保留数据上的预测结果与原始预测结果之间的差异。损失函数的权重需要根据具体任务和数据集进行调整,以达到最佳的遗忘和保留效果。此外,论文可能还涉及到一些数据增强或者正则化技术,以进一步提高模型的鲁棒性和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoCoL在MS MARCO和TREC CAR数据集上,对四种神经IR模型均取得了显著的遗忘效果,同时最大限度地减少了保留和泛化性能的损失。具体性能数据(例如MRR、NDCG等指标)和与现有基线的对比结果(例如遗忘率、保留率等)需要在论文中查找。CoCoL在各项指标上均优于现有方法,证明了其有效性和优越性。

🎯 应用场景

该研究成果可应用于对数据隐私和合规性有严格要求的神经信息检索系统,例如搜索引擎、推荐系统和问答系统。通过选择性地移除特定信息,可以满足用户的数据删除请求,避免敏感信息泄露,并提高系统的安全性和可信度。该技术还有助于构建更加个性化和可控的信息服务,提升用户体验。

📄 摘要(原文)

We address the problem of machine unlearning in neural information retrieval (IR), introducing a novel task termed Neural Machine UnRanking (NuMuR). This problem is motivated by growing demands for data privacy compliance and selective information removal in neural IR systems. Existing task- or model- agnostic unlearning approaches, primarily designed for classification tasks, are suboptimal for NuMuR due to two core challenges: (1) neural rankers output unnormalised relevance scores rather than probability distributions, limiting the effectiveness of traditional teacher-student distillation frameworks; and (2) entangled data scenarios, where queries and documents appear simultaneously across both forget and retain sets, may degrade retention performance in existing methods. To address these issues, we propose Contrastive and Consistent Loss (CoCoL), a dual-objective framework. CoCoL comprises (1) a contrastive loss that reduces relevance scores on forget sets while maintaining performance on entangled samples, and (2) a consistent loss that preserves accuracy on retain set. Extensive experiments on MS MARCO and TREC CAR datasets, across four neural IR models, demonstrate that CoCoL achieves substantial forgetting with minimal retain and generalisation performance loss. Our method facilitates more effective and controllable data removal than existing techniques.