Post-Selection Distributional Model Evaluation

📄 arXiv: 2603.23055v1 📥 PDF

作者: Amirmohammad Farzaneh, Osvaldo Simeone

分类: stat.ML, cs.IT, cs.LG

发布日期: 2026-03-24


💡 一句话要点

提出PS-DME框架,用于模型预选后对KPI分布进行可靠评估,解决后选择偏差问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型评估 后选择偏差 e-values 关键性能指标 分布模型评估

📋 核心要点

  1. 现有模型评估方法难以在KPI目标未知时比较模型,且易受后选择偏差影响。
  2. PS-DME框架利用e-values控制后选择错误覆盖率,实现统计有效的分布模型评估。
  3. 实验证明PS-DME在样本效率上优于样本分割方法,并支持性能-可靠性权衡探索。

📝 摘要(中文)

正式的模型评估方法通常验证模型是否满足预先设定的关键性能指标(KPI)水平。然而,在许多应用中,相关的目标KPI水平可能不是先验已知的,用户可能希望通过分析模型在测试时可实现的性能和可靠性之间的完整权衡来比较候选模型。这项任务需要可靠地估计测试时的KPI分布,但由于通常必须使用相同的数据来预选候选模型子集并估计其KPI分布,因此变得更加复杂,从而导致潜在的后选择偏差。在这项工作中,我们引入了后选择分布模型评估(PS-DME),这是一个通用的框架,用于在任意数据相关的模型预选之后进行统计有效的分布模型评估。基于e-values,PS-DME控制了分布KPI估计的后选择错误覆盖率(FCR),并且被证明比基于样本分割的基线方法更具有样本效率。在合成数据、使用大型语言模型的文本到SQL解码以及电信网络性能评估方面的实验表明,PS-DME能够可靠地比较各种可靠性水平的候选配置,从而支持对性能-可靠性权衡进行统计上可靠的探索。

🔬 方法详解

问题定义:论文旨在解决模型选择过程中由于使用相同数据进行预选择和性能评估而引入的后选择偏差问题。现有模型评估方法通常假设KPI目标已知,但在实际应用中,用户可能需要在不同的性能和可靠性水平之间进行权衡,这需要对KPI分布进行可靠的估计。直接使用相同数据进行模型选择和评估会导致过拟合,从而产生有偏差的评估结果。

核心思路:论文的核心思路是利用e-values来构建一个统计上有效的框架,用于在模型预选择之后进行分布模型评估。e-values提供了一种量化证据反对零假设的方法,可以用于控制后选择错误覆盖率(FCR)。通过控制FCR,PS-DME确保了对KPI分布的估计在统计上是可靠的,即使在模型是基于相同数据预先选择的情况下。

技术框架:PS-DME框架包含以下主要步骤:1) 使用数据集预选候选模型子集。2) 使用相同的或不同的数据集,计算每个模型的e-values,这些e-values反映了模型性能的证据。3) 使用e-values来构建置信区间或置信集,用于估计KPI的分布。4) 通过控制FCR,确保置信区间的覆盖率在统计上是有效的。整体流程旨在提供一种在模型选择后进行可靠评估的方法,避免后选择偏差的影响。

关键创新:最重要的技术创新点在于使用e-values来控制后选择偏差,并构建统计上有效的置信区间。与传统的样本分割方法相比,PS-DME能够更有效地利用数据,从而提高样本效率。此外,PS-DME框架具有通用性,可以应用于各种模型选择和评估场景。

关键设计:e-value的计算是PS-DME的关键。论文可能涉及如何根据具体的KPI和模型类型设计合适的e-value。此外,如何选择合适的FCR控制方法,以及如何构建置信区间也是重要的技术细节。具体的参数设置和损失函数取决于具体的应用场景和模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PS-DME在合成数据、文本到SQL解码以及电信网络性能评估等多个任务上都表现出良好的性能。与基于样本分割的基线方法相比,PS-DME能够更有效地利用数据,从而提高样本效率。此外,实验还验证了PS-DME能够可靠地比较各种可靠性水平的候选配置,并支持对性能-可靠性权衡进行统计上可靠的探索。

🎯 应用场景

PS-DME框架可广泛应用于需要模型选择和性能评估的领域,例如机器学习模型部署、A/B测试、超参数优化、以及电信网络配置优化等。该方法能够帮助用户在不同的性能和可靠性水平之间做出明智的决策,并确保模型评估结果的可靠性,从而降低部署风险。

📄 摘要(原文)

Formal model evaluation methods typically certify that a model satisfies a prescribed target key performance indicator (KPI) level. However, in many applications, the relevant target KPI level may not be known a priori, and the user may instead wish to compare candidate models by analyzing the full trade-offs between performance and reliability achievable at test time by the models. This task, requiring the reliable estimate of the test-time KPI distributions, is made more complicated by the fact that the same data must often be used both to pre-select a subset of candidate models and to estimate their KPI distributions, causing a potential post-selection bias. In this work, we introduce post-selection distributional model evaluation (PS-DME), a general framework for statistically valid distributional model assessment after arbitrary data-dependent model pre-selection. Building on e-values, PS-DME controls post-selection false coverage rate (FCR) for the distributional KPI estimates and is proved to be more sample efficient than a baseline method based on sample splitting. Experiments on synthetic data, text-to-SQL decoding with large language models, and telecom network performance evaluation demonstrate that PS-DME enables reliable comparison of candidate configurations across a range of reliability levels, supporting the statistically reliable exploration of performance--reliability trade-offs.