Active Preference Learning for Ordering Items In- and Out-of-sample
作者: Herman Bergström, Emil Carlsson, Devdatt Dubhashi, Fredrik D. Johansson
分类: cs.LG, stat.ML
发布日期: 2024-05-05 (更新: 2024-10-27)
💡 一句话要点
提出一种主动偏好学习方法,用于上下文感知的物品排序,提升样本效率和泛化能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 主动学习 偏好学习 物品排序 上下文感知 不确定性量化
📋 核心要点
- 现有排序算法忽略物品间的共享结构,导致样本效率低,无法泛化到新物品,且未考虑物品对间噪声差异。
- 提出一种主动学习策略,通过最小化排序误差上界来选择物品对,同时考虑偶然不确定性和认知不确定性。
- 实验结果表明,该方法在样本效率和泛化能力上优于非上下文排序方法和主动偏好学习基线。
📝 摘要(中文)
本文研究了上下文感知的物品排序的主动偏好学习,旨在解决在样本内和样本外场景中,基于成对比较学习物品排序的问题。当物品难以在绝对尺度上进行一致评分时,例如在主观评估中,基于成对比较学习排序非常有用。为了减少注释量,主动采样物品对至关重要。然而,许多算法忽略了物品之间的共享结构,限制了样本效率和对新物品的泛化能力。此外,常见的做法是忽略比较中噪声在物品对之间的变化,而这种变化实际上反映了物品的相似性。本文提出了一种主动学习策略,通过考虑比较中的偶然不确定性和认知不确定性来最小化排序误差的上界。在多项真实排序任务中,通过人工标注进行比较,评估了该算法及其旨在减少模型错误指定的变体。结果表明,与非上下文排序方法和主动偏好学习基线相比,该方法具有更高的样本效率和泛化能力。
🔬 方法详解
问题定义:论文旨在解决基于成对比较的物品排序问题,特别是在上下文信息可用时,如何通过主动学习策略,减少人工标注量,提高排序的准确性和泛化能力。现有方法的痛点在于忽略了物品之间的关联性,以及比较过程中噪声的差异性,导致样本效率低下,无法很好地泛化到未见过的物品。
核心思路:论文的核心思路是利用物品的上下文信息,建立一个logistic偏好模型,并设计一个主动学习策略,该策略通过选择那些能够最大程度减少排序误差上界的物品对进行比较,从而提高学习效率。该策略同时考虑了偶然不确定性(aleatoric uncertainty)和认知不确定性(epistemic uncertainty),前者反映了数据本身的噪声,后者反映了模型的不确定性。通过同时考虑这两种不确定性,可以更有效地选择信息量大的物品对。
技术框架:整体框架包含以下几个主要步骤:1) 构建一个logistic偏好模型,该模型利用物品的上下文信息来预测物品之间的偏好关系;2) 推导排序误差上界的表达式,该表达式依赖于已比较的物品对;3) 设计一个主动学习策略,该策略通过选择能够最小化排序误差上界的物品对进行比较;4) 利用人工标注数据训练模型,并评估模型的排序性能。
关键创新:论文的关键创新在于提出了一种新的主动学习策略,该策略能够同时考虑偶然不确定性和认知不确定性,从而更有效地选择信息量大的物品对。此外,论文还推导了排序误差上界的表达式,为主动学习策略的设计提供了理论依据。与现有方法相比,该方法能够更好地利用物品的上下文信息,提高样本效率和泛化能力。
关键设计:论文的关键设计包括:1) 使用logistic函数来建模物品之间的偏好关系;2) 使用高斯过程来建模模型的不确定性;3) 设计一个基于信息增益的主动学习策略,该策略选择那些能够最大程度减少排序误差上界的物品对进行比较。具体而言,排序误差上界与已观测数据的负对数似然和模型参数的后验分布有关。主动学习策略旨在选择能够最大程度降低此上界的物品对,从而提高排序的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个真实排序任务中,与非上下文排序方法和主动偏好学习基线相比,具有更高的样本效率和泛化能力。具体而言,该方法能够在较少的标注数据下,达到与现有方法相当甚至更好的排序性能。此外,论文还验证了旨在减少模型错误指定的变体的有效性。
🎯 应用场景
该研究成果可应用于各种需要对物品进行排序的场景,例如推荐系统、信息检索、搜索引擎排序、A/B测试等。特别是在人工标注成本较高,且物品具有上下文信息的场景下,该方法能够显著提高排序效率和准确性。此外,该方法还可以应用于主观评估任务,例如艺术品评价、产品设计评估等。
📄 摘要(原文)
Learning an ordering of items based on pairwise comparisons is useful when items are difficult to rate consistently on an absolute scale, for example, when annotators have to make subjective assessments. When exhaustive comparison is infeasible, actively sampling item pairs can reduce the number of annotations necessary for learning an accurate ordering. However, many algorithms ignore shared structure between items, limiting their sample efficiency and precluding generalization to new items. It is also common to disregard how noise in comparisons varies between item pairs, despite it being informative of item similarity. In this work, we study active preference learning for ordering items with contextual attributes, both in- and out-of-sample. We give an upper bound on the expected ordering error of a logistic preference model as a function of which items have been compared. Next, we propose an active learning strategy that samples items to minimize this bound by accounting for aleatoric and epistemic uncertainty in comparisons. We evaluate the resulting algorithm, and a variant aimed at reducing model misspecification, in multiple realistic ordering tasks with comparisons made by human annotators. Our results demonstrate superior sample efficiency and generalization compared to non-contextual ranking approaches and active preference learning baselines.