Minimax Rates and Spectral Distillation for Tree Ensembles

📄 arXiv: 2605.11841v1 📥 PDF

作者: Binh Duc Vu, David S. Watson

分类: stat.ML, cs.AI, cs.LG

发布日期: 2026-05-12

备注: 9 pages main text, 33 pages total, with 12 figures and 7 tables total


💡 一句话要点

提出基于谱分析的树集成模型压缩方法,实现资源受限场景下的高性能预测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 树集成模型 随机森林 梯度提升机 模型压缩 谱分析 核方法 特征值分解

📋 核心要点

  1. 树集成模型理论性质研究不完善,尤其缺乏对其泛化性能的精确刻画。
  2. 通过谱分析方法,揭示随机森林核算子的特征值衰减与统计速率之间的关系,并用于模型压缩。
  3. 提出的谱蒸馏方法,在保持预测性能的同时,显著减小模型体积,优于现有剪枝和规则提取算法。

📝 摘要(中文)

树集成模型,如随机森林(RFs)和梯度提升机(GBMs),是最广泛使用的监督学习器之一,但其理论性质尚未完全理解。本文采用谱视角研究这些算法,主要贡献有两点。首先,我们推导了RF回归的极小极大最优收敛率,表明在树增长的温和正则条件下,诱导核算子的特征值衰减决定了统计速率。其次,我们利用这种谱视角开发了树集成模型的压缩方案。对于RFs,核算子的主导特征函数捕获了主要的预测方向;对于GBMs,平滑矩阵的主导奇异向量起着类似的作用。学习这些谱表示的非线性映射可以产生比原始模型小几个数量级的精馏模型,同时保持有竞争力的预测性能。我们的方法与最先进的森林剪枝和规则提取算法相比具有优势,并可应用于资源受限的计算。

🔬 方法详解

问题定义:现有树集成模型,如随机森林和梯度提升机,虽然在实践中表现出色,但其理论性质,特别是泛化性能的界定,仍然不够完善。此外,这些模型通常体积较大,计算复杂度高,难以部署在资源受限的设备上。现有的模型压缩方法,如剪枝和规则提取,往往难以在模型大小和预测精度之间取得良好的平衡。

核心思路:本文的核心思路是将树集成模型视为一种核方法,并利用谱分析工具来理解其行为。具体来说,对于随机森林,研究其诱导核算子的特征值衰减,并证明其与模型的统计速率相关。对于梯度提升机,则关注平滑矩阵的奇异向量。通过提取这些谱表示中的主导成分,可以有效地压缩模型,同时保留其主要的预测能力。

技术框架:该方法主要包含以下几个阶段: 1. 谱分析:对随机森林的核算子或梯度提升机的平滑矩阵进行谱分解,得到特征值和特征向量或奇异值和奇异向量。 2. 主成分提取:选择前k个最大的特征值对应的特征向量(对于随机森林)或奇异向量(对于梯度提升机),作为模型的主要谱表示。 3. 非线性映射学习:学习一个非线性映射,将原始输入映射到提取的谱表示空间。 4. 模型精馏:使用学习到的非线性映射和提取的谱表示构建精馏模型。

关键创新:该方法最重要的创新点在于将谱分析引入到树集成模型的压缩中。通过谱分析,可以识别模型中最重要的预测方向,并利用这些方向构建更紧凑的模型。与传统的剪枝和规则提取方法相比,该方法能够更好地保留模型的预测能力,同时显著减小模型体积。

关键设计:在谱分析阶段,需要选择合适的核函数或平滑矩阵。在主成分提取阶段,需要确定保留多少个主成分,这可以通过交叉验证等方法进行选择。在非线性映射学习阶段,可以使用各种机器学习算法,如神经网络或支持向量机。损失函数的设计需要考虑预测精度和模型复杂度之间的平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的谱蒸馏方法能够显著减小随机森林和梯度提升机的模型体积,同时保持有竞争力的预测性能。与现有的森林剪枝和规则提取算法相比,该方法在模型大小和预测精度之间取得了更好的平衡。例如,在某些数据集上,该方法可以将模型大小减小几个数量级,而预测精度仅略有下降。

🎯 应用场景

该研究成果可广泛应用于资源受限的计算场景,例如移动设备、嵌入式系统和物联网设备。通过压缩树集成模型,可以在这些设备上部署复杂的机器学习模型,从而实现智能化的数据分析和决策。此外,该方法还可以用于模型解释性,通过分析谱表示,可以更好地理解树集成模型的工作原理。

📄 摘要(原文)

Tree ensembles such as random forests (RFs) and gradient boosting machines (GBMs) are among the most widely used supervised learners, yet their theoretical properties remain incompletely understood. We adopt a spectral perspective on these algorithms, with two main contributions. First, we derive minimax-optimal convergence for RF regression, showing that, under mild regularity conditions on tree growth, the eigenvalue decay of the induced kernel operator governs the statistical rate. Second, we exploit this spectral viewpoint to develop compression schemes for tree ensembles. For RFs, leading eigenfunctions of the kernel operator capture the dominant predictive directions; for GBMs, leading singular vectors of the smoother matrix play an analogous role. Learning nonlinear maps for these spectral representations yields distilled models that are orders of magnitude smaller than the originals while maintaining competitive predictive performance. Our methods compare favorably to state of the art algorithms for forest pruning and rule extraction, with applications to resource constrained computing.