Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

作者: Thorbjørn Mosekjær Iversen, Zebin Duan, Frederik Hagelskjær

分类: cs.LG, cs.CV

发布日期: 2026-02-24

💡 一句话要点

提出Wilson Score核密度分类方法，用于二分类置信度边界估计，适用于关键检测任务。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 二分类 置信度估计 核密度估计 Wilson Score区间 选择性分类

📋 核心要点

深度学习二分类器在关键检测任务中应用受限于缺乏可靠的置信度边界估计，难以保证系统性能。
论文提出Wilson Score核密度分类方法，核心是Wilson Score核密度估计器，用于估计二项式实验中的置信度边界。
实验表明，该方法在选择性分类任务中表现出与高斯过程分类相似的性能，但计算复杂度更低。

📝 摘要（中文）

近年来，基于深度学习的二分类器的性能和易用性得到了显著提高。这为自动化关键检测任务带来了潜力，而这些任务传统上只能信任人工完成。然而，二分类器在关键操作中的应用取决于可靠的置信度边界估计，以确保系统性能达到给定的统计显著性。我们提出了一种新的基于核的方法，即Wilson Score核密度分类，用于估计二分类中的置信度边界。我们方法的核心是Wilson Score核密度估计器，它是一个函数估计器，用于估计条件变化的成功概率的二项式实验中的置信度边界。我们的方法在选择性分类的背景下，在四个不同的数据集上进行了评估，展示了其作为任何特征提取器（包括视觉基础模型）的分类头的用途。我们提出的方法显示出与高斯过程分类相似的性能，但计算复杂度更低。

🔬 方法详解

问题定义：论文旨在解决二分类任务中置信度边界估计的问题。现有方法在估计二分类器输出的置信度时，往往计算复杂度高，或者无法提供可靠的统计保证，限制了其在关键检测任务中的应用。尤其是在自动化检测等对可靠性要求高的场景下，准确的置信度估计至关重要。

核心思路：论文的核心思路是利用Wilson Score区间来构建核密度估计器，从而实现对二分类器输出置信度的准确估计。Wilson Score区间是一种用于二项分布参数估计的置信区间，相比于传统的正态近似，它在样本量较小或概率接近0或1时更加准确。通过将Wilson Score区间与核密度估计相结合，可以得到一个能够适应条件变化的成功概率的置信度估计器。

技术框架：该方法可以作为任何特征提取器的分类头。整体流程如下：1) 使用特征提取器（例如视觉基础模型）提取输入数据的特征；2) 将提取的特征输入到Wilson Score核密度分类器中；3) 分类器输出分类结果以及对应的置信度边界。核心模块是Wilson Score核密度估计器，它根据输入的特征和已知的训练数据，估计当前样本属于正类或负类的置信度区间。

关键创新：该方法最重要的创新点在于将Wilson Score区间引入到核密度估计中。传统的核密度估计方法通常基于高斯核或其他对称核函数，无法很好地处理二项分布中概率接近0或1时置信区间的不对称性。而Wilson Score区间能够更准确地反映这种不对称性，从而提高置信度估计的准确性。此外，该方法相比于高斯过程分类，具有更低的计算复杂度。

关键设计：Wilson Score核密度估计器的关键在于核函数的选择和带宽参数的设置。论文中可能探讨了不同的核函数对性能的影响，并提出了合适的带宽参数选择策略。此外，损失函数的设计也至关重要，可能采用了某种形式的交叉熵损失或hinge loss，并结合正则化项来防止过拟合。具体的网络结构取决于所使用的特征提取器。

📊 实验亮点

论文在四个不同的数据集上进行了实验，结果表明，提出的Wilson Score核密度分类方法在选择性分类任务中表现出与高斯过程分类相似的性能，但计算复杂度更低。这意味着该方法在保证性能的同时，能够更高效地应用于大规模数据集和实时应用场景。具体的性能指标（例如准确率、召回率、F1值等）以及与基线方法的对比数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于各种需要高可靠性的二分类任务，例如工业自动化检测、医疗诊断辅助系统、金融风险评估等。通过提供可靠的置信度边界，可以帮助决策者更好地理解分类结果的不确定性，从而做出更明智的决策。未来，该方法有望在更多关键应用领域发挥重要作用，提升自动化系统的可靠性和安全性。

📄 摘要（原文）

The performance and ease of use of deep learning-based binary classifiers have improved significantly in recent years. This has opened up the potential for automating critical inspection tasks, which have traditionally only been trusted to be done manually. However, the application of binary classifiers in critical operations depends on the estimation of reliable confidence bounds such that system performance can be ensured up to a given statistical significance. We present Wilson Score Kernel Density Classification, which is a novel kernel-based method for estimating confidence bounds in binary classification. The core of our method is the Wilson Score Kernel Density Estimator, which is a function estimator for estimating confidence bounds in Binomial experiments with conditionally varying success probabilities. Our method is evaluated in the context of selective classification on four different datasets, illustrating its use as a classification head of any feature extractor, including vision foundation models. Our proposed method shows similar performance to Gaussian Process Classification, but at a lower computational complexity.

Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理