Privacy-Preserving Graph-Based Machine Learning with Fully Homomorphic Encryption for Collaborative Anti-Money Laundering

📄 arXiv: 2411.02926v2 📥 PDF

作者: Fabrianne Effendi, Anupam Chattopadhyay

分类: cs.CR, cs.LG

发布日期: 2024-11-05 (更新: 2024-11-11)

备注: 14th International Conference on Security, Privacy, and Applied Cryptographic Engineering (SPACE) 2024


💡 一句话要点

提出基于全同态加密的图机器学习方法,用于保护隐私的协同反洗钱。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 全同态加密 图神经网络 XGBoost 反洗钱 隐私保护 协同学习 图特征工程

📋 核心要点

  1. 现有反洗钱(AML)解决方案受限于金融机构间的数据孤岛,阻碍了协作和整体效率,难以有效应对日益复杂的洗钱活动。
  2. 该研究提出一种基于全同态加密(FHE)的协同AML机器学习方法,允许在加密数据上直接计算,实现安全的数据共享和隐私保护。
  3. 实验结果表明,该方法在平衡数据集上XGBoost模型准确率超过99%,在不平衡数据集上F1分数提升8%,验证了其有效性。

📝 摘要(中文)

随着网络犯罪和金融交易数字化程度的提高,打击洗钱活动变得日益复杂。基于图的机器学习技术已成为一种有前景的反洗钱(AML)检测工具,能够捕捉洗钱网络中错综复杂的关系。然而,金融机构内部的数据孤岛阻碍了反洗钱解决方案的有效性,限制了协作和整体效率。本研究提出了一种新颖的保护隐私的协同反洗钱机器学习方法,促进跨机构和跨边界的安全数据共享,同时保护隐私和符合法规。利用全同态加密(FHE),直接对加密数据执行计算,确保金融数据的机密性。值得注意的是,基于环面上的FHE (TFHE)与使用Zama Concrete ML的基于图的机器学习相结合。该研究贡献了两个关键的保护隐私的流程。首先,探索了保护隐私的图神经网络(GNN)流程的开发。使用量化和剪枝等优化技术使GNN与FHE兼容。其次,成功开发了利用图特征预处理器(GFP)的保护隐私的基于图的XGBoost流程。实验表明了强大的预测性能,在非加密和FHE加密的推理设置中,XGBoost模型在平衡的AML数据集上始终达到超过99%的准确率、F1分数、精确率和召回率。在不平衡的数据集上,结合基于图的特征将F1分数提高了8%。该研究强调了平衡隐私和计算效率之间权衡的必要性。

🔬 方法详解

问题定义:论文旨在解决金融机构在反洗钱(AML)合作中面临的数据隐私问题。现有方法由于数据孤岛和隐私顾虑,难以实现跨机构的数据共享和协同建模,限制了AML模型的有效性。因此,如何在保护敏感金融数据的前提下,实现高效的协同反洗钱成为关键挑战。

核心思路:论文的核心思路是利用全同态加密(FHE)技术,允许在加密数据上直接进行计算,无需解密。这样,金融机构可以在不暴露原始数据的情况下,共同训练和使用机器学习模型,从而打破数据孤岛,提升反洗钱效果。

技术框架:该研究提出了两个主要的隐私保护流程:一是基于图神经网络(GNN)的流程,二是基于图特征预处理器(GFP)和XGBoost的流程。两个流程都利用TFHE和Zama Concrete ML进行全同态加密计算。GNN流程侧重于直接在加密图数据上进行学习,而XGBoost流程则利用GFP提取图特征,再进行加密和训练。

关键创新:该研究的关键创新在于将全同态加密技术应用于图机器学习,并成功构建了可用于协同反洗钱的隐私保护模型。通过量化和剪枝等优化技术,使GNN模型能够与FHE兼容,降低了计算复杂度。此外,利用GFP提取图特征,为XGBoost模型提供了更丰富的输入信息。

关键设计:在GNN流程中,采用了量化和剪枝技术来降低计算复杂度,使其能够在FHE环境下运行。在XGBoost流程中,GFP用于提取图的结构信息,例如节点的度、中心性等,作为XGBoost模型的输入特征。实验中,使用了平衡和不平衡的AML数据集,评估了模型在不同场景下的性能表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于FHE的XGBoost模型在平衡的AML数据集上,准确率、F1分数、精确率和召回率均超过99%,与未加密的模型性能相当。在不平衡数据集上,引入图特征后,F1分数提升了8%,表明了图特征的有效性。这些结果验证了该方法在保护隐私的同时,能够保持良好的预测性能。

🎯 应用场景

该研究成果可应用于金融行业的反洗钱、欺诈检测等领域,实现跨机构、跨国界的数据共享和协同建模,提升风险识别和防控能力。同时,该方法也适用于其他需要保护隐私的图数据分析场景,例如社交网络分析、生物信息学等,具有广阔的应用前景。

📄 摘要(原文)

Combating money laundering has become increasingly complex with the rise of cybercrime and digitalization of financial transactions. Graph-based machine learning techniques have emerged as promising tools for Anti-Money Laundering (AML) detection, capturing intricate relationships within money laundering networks. However, the effectiveness of AML solutions is hindered by data silos within financial institutions, limiting collaboration and overall efficacy. This research presents a novel privacy-preserving approach for collaborative AML machine learning, facilitating secure data sharing across institutions and borders while preserving privacy and regulatory compliance. Leveraging Fully Homomorphic Encryption (FHE), computations are directly performed on encrypted data, ensuring the confidentiality of financial data. Notably, FHE over the Torus (TFHE) was integrated with graph-based machine learning using Zama Concrete ML. The research contributes two key privacy-preserving pipelines. First, the development of a privacy-preserving Graph Neural Network (GNN) pipeline was explored. Optimization techniques like quantization and pruning were used to render the GNN FHE-compatible. Second, a privacy-preserving graph-based XGBoost pipeline leveraging Graph Feature Preprocessor (GFP) was successfully developed. Experiments demonstrated strong predictive performance, with the XGBoost model consistently achieving over 99% accuracy, F1-score, precision, and recall on the balanced AML dataset in both unencrypted and FHE-encrypted inference settings. On the imbalanced dataset, the incorporation of graph-based features improved the F1-score by 8%. The research highlights the need to balance the trade-off between privacy and computational efficiency.