Calibrated Preference Learning: The Case of Label Ranking

📄 arXiv: 2605.30447v1 📥 PDF

作者: Santo M. A. R. Thies, Viktor Bengs, Timo Kaufmann, Sebastian J. Vollmer, Eyke Hüllermeier

分类: cs.LG, cs.AI, stat.ML

发布日期: 2026-05-28


💡 一句话要点

针对标签排序任务,论文提出校准学习框架,提升排序预测的可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 标签排序 校准学习 概率预测 排序模型 可靠性 RLHF 奖励模型

📋 核心要点

  1. 现有标签排序模型缺乏校准,导致预测概率与真实排序频率不一致,影响决策可靠性。
  2. 论文形式化定义了标签排序的校准概念,并构建了完整排序、子排序和top-k排序的校准层次结构。
  3. 实验表明,现有模型校准不良,且不同校准指标存在差异;校准与RLHF奖励模型的精度相关。

📝 摘要(中文)

校准,即预测概率与真实结果频率的一致性,对于可靠的决策至关重要。虽然校准在分类和回归中已被广泛研究,但尚未针对概率标签排序进行正式研究。标签排序的目标是预测标签集排序的分布。简单地将排序视为类别会忽略其结构,并且无法捕获重要的模态,例如成对和top-k预测。本文形式化了标签排序的校准概念,并开发了一个涵盖完整排序、子排序和top-k排序的概念层次结构。证明了完整排序校准意味着其他校准,但反之不然,并且子排序和top-k校准是不可比较的。实验表明,流行的标签排序模型通常校准不良,子排序和top-k指标之间存在显着差异。将该框架应用于RLHF奖励模型,发现校准与基准精度密切相关但不完全相关,表明它捕获了超出top-1精度的有意义的质量维度。这些发现激发了未来对校准误差的下游影响以及开发纠正方法的研究。

🔬 方法详解

问题定义:论文旨在解决标签排序任务中模型校准不足的问题。现有方法通常忽略排序结构的特殊性,例如成对关系和top-k排序,简单地将排序视为类别进行处理,导致无法准确评估和优化排序预测的可靠性。这种校准不足会影响下游决策的准确性和可信度。

核心思路:论文的核心思路是形式化定义标签排序的校准概念,并构建一个校准层次结构,从而能够更细粒度地评估和改进标签排序模型的校准性能。通过区分完整排序、子排序和top-k排序,可以针对不同的排序粒度进行校准,从而更全面地提升模型的可靠性。

技术框架:论文的技术框架主要包含以下几个部分:1) 形式化定义标签排序的校准概念,包括完整排序校准、子排序校准和top-k排序校准;2) 建立校准概念的层次结构,证明完整排序校准蕴含其他校准,但反之不然,且子排序和top-k校准不可比较;3) 设计实验评估现有标签排序模型的校准性能,并分析不同校准指标之间的差异;4) 将校准框架应用于RLHF奖励模型,研究校准与模型精度的关系。

关键创新:论文最重要的技术创新点在于首次将校准概念形式化地应用于标签排序任务,并提出了一个涵盖不同排序粒度的校准层次结构。与现有方法相比,该方法能够更准确地评估和优化标签排序模型的校准性能,从而提升排序预测的可靠性。

关键设计:论文的关键设计包括:1) 针对不同排序粒度(完整排序、子排序、top-k排序)定义了相应的校准指标;2) 证明了不同校准指标之间的关系,建立了校准层次结构;3) 设计了实验评估现有模型的校准性能,并分析了校准与模型精度之间的关系。具体的损失函数和网络结构取决于所使用的标签排序模型,论文主要关注校准框架的构建和评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,流行的标签排序模型通常校准不良,子排序和top-k指标之间存在显着差异。将该框架应用于RLHF奖励模型,发现校准与基准精度密切相关,表明校准捕获了超出top-1精度的有意义的质量维度。这些发现强调了校准在标签排序任务中的重要性。

🎯 应用场景

该研究成果可应用于推荐系统、信息检索、自然语言处理等领域,提升排序模型的可靠性和用户满意度。例如,在推荐系统中,校准良好的排序模型可以更准确地预测用户对不同物品的偏好程度,从而提供更个性化的推荐结果。在自然语言处理中,可以用于提升文本排序、摘要生成等任务的性能。

📄 摘要(原文)

Calibration, the alignment of predicted probabilities with true outcome frequencies, is essential for reliable decision-making. While extensively studied for classification and regression, calibration has not been formally addressed for probabilistic label ranking, where the goal is to predict a distribution over orderings of a label set. Naively treating rankings as classes ignores their structure and fails to capture important modalities such as pairwise and top-k predictions. We formalize calibration for label ranking and develop a hierarchy of notions covering full rankings, sub-rankings, and top-k rankings. We prove that full-rank calibration implies the others but not conversely, and sub-ranking and top-k calibration are incomparable. Empirically, we find popular label ranking models are often poorly calibrated, with substantial differences between sub-ranking and top-k metrics. Applying our framework to RLHF reward models, we find that calibration correlates strongly but not perfectly with benchmark accuracy, suggesting it captures a meaningful quality dimension beyond top-1 accuracy. These findings motivate future work on understanding the downstream effects of miscalibration and developing methods to correct it.