Practical Anonymous Two-Party Gradient Boosting Decision Tree

📄 arXiv: 2605.26903v1 📥 PDF

作者: Huang Chenyu, Zhang Fan, Du Minxin, Chow Sherman SM, Chen Huangxun, Rao Huaming, Huang Danqing, Qian Bo, Chen Peng

分类: cs.CR, cs.AI

发布日期: 2026-05-26

备注: 19 pages; 2026 IEEE Symposium on Security and Privacy (SP)

期刊: 2026 IEEE Symposium on Security and Privacy (SP)

DOI: 10.1109/SP63933.2026.00084


💡 一句话要点

提出匿名两方梯度提升决策树训练方法,解决ID泄露问题,兼顾效率与隐私。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 安全多方计算 梯度提升决策树 隐私保护 私有集合交集 同态加密 匿名训练 垂直分割数据

📋 核心要点

  1. 现有基于PSI的GBDT安全训练方法会暴露共享记录ID,存在隐私泄露风险,且通用电路PSI成本高昂。
  2. 设计双电路PSI,使各方轮流作为接收者,利用不经意可编程伪随机函数传播电路PSI输出,实现匿名训练。
  3. 通过避免通用对齐,解决了ID隐藏带来的成本随域大小扩展的问题,并优化了密文打包,提升效率。

📝 摘要(中文)

梯度提升决策树(GBDT)擅长处理结构化数据,通常在互不信任的多方之间,基于垂直分割的特征进行训练。 GBDT因其速度快和可解释性强,在金融和医疗保健领域很受欢迎,而神经网络可能无法胜任。为 GBDT实现安全计算带来独特的挑战,需要安全的记录对齐以进行比较。依赖私有集合交集(PSI)是一种事实上的方法。将PSI误认为是安全措施实际上会暴露哪些记录标识符(ID)在数据集之间共享。虽然电路PSI可能有所帮助,但对于通用用途来说成本很高。需要新的想法来有效地在“黑暗森林”中进行训练。为了隐藏ID,我们启动了对由两方持有的分割数据进行匿名GBDT训练的研究。我们设计中的双电路PSI让各方轮流作为接收者,对本地特征运行pick-then-sum。通过不经意可编程伪随机函数,我们将电路PSI输出作为跨运行的共享状态传播。避免通用对齐,我们解决了被忽视的困境,即ID隐藏会产生随域大小而扩展的成本。接下来,我们将用于转换单指令多数据同态加密的密文打包成本减半,该加密来自先前安全GBDT中的(环)带误差学习(Usenix Security' 23)和相关的安全机器学习计算。对比实验表明,我们的协议在效率方面仍具有竞争力。通过启用ID隐藏聚合,我们的技术可以扩展到其他垂直分割的分析。

🔬 方法详解

问题定义:论文旨在解决在两方垂直分割数据上训练梯度提升决策树(GBDT)时,如何保护记录ID不被泄露的问题。现有方法通常依赖于私有集合交集(PSI)来对齐记录,但PSI本身会暴露哪些记录ID是共享的,从而造成隐私泄露。此外,使用通用电路PSI的成本很高,难以实际应用。

核心思路:论文的核心思路是通过设计一种匿名训练协议,在不暴露记录ID的情况下,安全地进行GBDT训练。该协议基于双电路PSI,允许各方轮流作为接收者,从而避免了单方完全掌握共享ID信息。同时,利用不经意可编程伪随机函数(OPPRF)在多轮训练中传递共享状态,保证训练过程的正确性。

技术框架:整体框架包含以下几个主要阶段:1) 双电路PSI:两方轮流作为接收者,运行电路PSI,对本地特征进行pick-then-sum操作。2) OPPRF传播:使用OPPRF将电路PSI的输出作为共享状态在多轮训练中传播。3) 梯度提升:基于共享状态,安全地计算梯度并更新决策树。4) 密文打包优化:优化单指令多数据(SIMD)同态加密的密文打包方式,降低计算开销。

关键创新:论文的关键创新在于:1) 匿名性:通过双电路PSI和OPPRF,实现了记录ID的匿名化,避免了隐私泄露。2) 效率:通过避免通用对齐和优化密文打包,降低了计算成本,提高了训练效率。3) 实用性:提出的协议在效率上与有信息泄露的方法具有竞争力,更具实用价值。

关键设计:在双电路PSI中,各方轮流作为接收者,可以防止单方完全掌握共享ID信息。OPPRF用于在多轮训练中安全地传递共享状态,保证训练过程的正确性。密文打包优化通过减少密文数量,降低了同态加密的计算开销。具体的参数设置和网络结构等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该协议在效率上与有信息泄露的方法具有竞争力,这意味着在保证隐私安全的同时,并没有显著降低训练效率。通过ID隐藏聚合,该技术可以扩展到其他垂直分割的分析任务,适用性更广。具体的性能数据和对比基线未在摘要中详细说明,属于未知信息。

🎯 应用场景

该研究成果可应用于金融、医疗等对数据隐私要求高的领域,实现安全的多方数据分析和机器学习。例如,不同医院可以在不共享患者ID的情况下,联合训练疾病预测模型,提高预测准确率,同时保护患者隐私。该技术还可扩展到其他垂直分割的分析任务中,具有广泛的应用前景。

📄 摘要(原文)

Structured data is well handled by gradient-boosted decision trees (GBDT), which are usually trained on vertically partitioned features across mutually distrustful parties. High speed and interpretability make GBDTs popular in finance and healthcare, where neural networks may fall short. Enabling secure computation for GBDTs poses unique challenges, requiring secure record alignment for comparison. Relying on private set intersection (PSI) is a de facto approach. Mistaking PSI for a safety measure actually exposes which record identifiers (IDs) are shared between the datasets. Although circuit-PSI could help, it is costly for generic uses. New ideas are needed to efficiently train in a "dark forest". Aiming to hide the IDs, we initiate the study of anonymous GBDT training on split data held by two parties. Dual circuit-PSI in our design lets the parties alternate as receiver to run pick-then-sum over local features. Via oblivious programmable pseudorandom functions, we propagate circuit-PSI outputs as shared state across runs. Avoiding universal alignment, we resolve the neglected dilemma that ID hiding incurs a cost that scales with domain size. Next, we halve the cost of ciphertext packing used to convert single-instruction multiple-data homomorphic encryption from (ring) learning with errors in prior secure GBDT (Usenix Security' 23) and related secure machine-learning computations. Comparative experiments show our protocol remains competitive with leaky approaches in efficiency. Enabling ID-hiding aggregation, our techniques can extend to other vertically partitioned analytics.