Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing

📄 arXiv: 2505.15195v1 📥 PDF

作者: Adel Javanmard, Rudrajit Das, Alessandro Epasto, Vahab Mirrokni

分类: cs.LG, math.ST, stat.ML

发布日期: 2025-05-21

备注: 31 pages, 6 figures, 5 tables


💡 一句话要点

提出基于近似消息传递的最优重训练方法,提升二元分类模型性能。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 重训练 近似消息传递 二元分类 贝叶斯最优 标签噪声

📋 核心要点

  1. 现有模型重训练方法缺乏对模型预测和原始标签的最优结合策略,导致性能提升受限。
  2. 论文提出基于近似消息传递(AMP)的框架,推导了贝叶斯最优聚合函数,以最小化预测误差。
  3. 实验结果表明,该方法在标签噪声较高的情况下,优于现有的基线方法,验证了其有效性。

📝 摘要(中文)

本文研究了利用模型自身预测和原始(可能带噪声)标签进行重训练以提升模型性能的策略。尽管已有工作展示了特定启发式重训练方案的优势,但如何最优地结合模型的预测和标签仍然是一个开放问题。本文针对二元分类任务,基于近似消息传递(AMP)开发了一个理论框架,用于分析高斯混合模型(GMM)和广义线性模型(GLM)两种ground truth设置下的迭代重训练过程。主要贡献是推导了贝叶斯最优聚合函数,用于结合当前模型的预测和给定标签,从而最小化模型的预测误差。此外,还量化了这种最优重训练策略在多轮迭代中的性能。通过实验,验证了所提出的理论最优聚合函数在交叉熵损失下的线性探测的实用版本,并证明其在高标签噪声情况下优于基线方法。

🔬 方法详解

问题定义:论文旨在解决二元分类任务中,如何最优地结合模型自身的预测和原始(可能带噪声的)标签,以提升模型性能的问题。现有方法通常采用启发式的重训练策略,缺乏理论指导,无法保证性能最优。尤其是在标签噪声较高的情况下,现有方法的性能会显著下降。

核心思路:论文的核心思路是利用近似消息传递(AMP)理论,推导出一个贝叶斯最优的聚合函数,该函数能够最优地结合模型的预测和原始标签,从而最小化模型的预测误差。通过迭代地使用该聚合函数进行重训练,可以逐步提升模型的性能。

技术框架:论文的技术框架主要包括以下几个步骤:1) 基于高斯混合模型(GMM)和广义线性模型(GLM)建立二元分类问题的ground truth模型。2) 利用近似消息传递(AMP)理论,分析迭代重训练过程。3) 推导贝叶斯最优聚合函数,该函数能够最小化预测误差。4) 设计一个实用的聚合函数版本,用于线性探测和交叉熵损失。5) 通过实验验证所提出的方法的有效性。

关键创新:论文最重要的技术创新点在于推导了贝叶斯最优聚合函数。该函数能够根据模型的预测和原始标签的置信度,自适应地调整它们的权重,从而实现最优的结合。与现有方法相比,该方法具有更强的理论基础和更好的性能。

关键设计:论文的关键设计包括:1) 使用近似消息传递(AMP)理论来分析迭代重训练过程,这使得可以精确地计算出模型的预测误差。2) 推导贝叶斯最优聚合函数,该函数能够最小化预测误差。3) 设计一个实用的聚合函数版本,用于线性探测和交叉熵损失。该版本通过学习一个线性模型来实现聚合,并且可以有效地处理标签噪声。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的基于最优重训练的方法在标签噪声较高的情况下,显著优于现有的基线方法。具体来说,在高斯混合模型(GMM)和广义线性模型(GLM)两种ground truth设置下,该方法都取得了更好的性能,验证了其有效性。

🎯 应用场景

该研究成果可应用于各种二元分类任务,尤其是在数据标签存在噪声或标注成本较高的情况下。例如,在医疗诊断、金融风控、垃圾邮件过滤等领域,可以利用该方法提升模型的准确性和鲁棒性,降低人工标注的成本,具有重要的实际应用价值。

📄 摘要(原文)

Retraining a model using its own predictions together with the original, potentially noisy labels is a well-known strategy for improving the model performance. While prior works have demonstrated the benefits of specific heuristic retraining schemes, the question of how to optimally combine the model's predictions and the provided labels remains largely open. This paper addresses this fundamental question for binary classification tasks. We develop a principled framework based on approximate message passing (AMP) to analyze iterative retraining procedures for two ground truth settings: Gaussian mixture model (GMM) and generalized linear model (GLM). Our main contribution is the derivation of the Bayes optimal aggregator function to combine the current model's predictions and the given labels, which when used to retrain the same model, minimizes its prediction error. We also quantify the performance of this optimal retraining strategy over multiple rounds. We complement our theoretical results by proposing a practically usable version of the theoretically-optimal aggregator function for linear probing with the cross-entropy loss, and demonstrate its superiority over baseline methods in the high label noise regime.