Continual Pretraining on Encrypted Synthetic Data for Privacy-Preserving LLMs
作者: Honghao Liu, Xuhui Jiang, Chengjin Xu, Cehao Yang, Yiran Cheng, Lionel Ni, Jian Guo
分类: cs.CR, cs.CL
发布日期: 2026-01-09
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于加密合成数据的持续预训练框架,用于保护隐私的大语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐私保护 持续预训练 加密数据 合成数据 大语言模型 实体图 确定性加密
📋 核心要点
- 现有方法难以在领域数据预训练LLM的同时保护个人隐私,尤其是在数据量较少的情况下。
- 论文提出基于实体图的加密数据合成方法,利用确定性加密保护PII,并支持授权访问。
- 实验表明,该方法在保护PII的同时,模型性能接近于在未加密数据上训练的模型,并保留了指令遵循能力。
📝 摘要(中文)
本文针对在小规模、特定领域语料库上预训练大语言模型时保护敏感数据隐私的挑战,提出了一种基于实体的框架,通过合成加密训练数据来保护个人身份信息(PII),探索隐私保护的持续预训练方法。该方法构建加权实体图来指导数据合成,并对PII实体应用确定性加密,使LLM能够通过持续预训练编码新知识,同时通过解密密钥授予对敏感数据的授权访问。在有限规模数据集上的结果表明,预训练模型优于基础模型,并确保PII安全,同时与在未加密合成数据上训练的模型相比,性能差距不大。研究进一步表明,增加实体数量和利用基于图的合成可以提高模型性能,并且加密模型保留了具有长检索上下文的指令遵循能力。论文讨论了确定性加密的安全影响和局限性,并将这项工作定位为对用于隐私保护LLM的加密数据预训练设计空间的初步研究。
🔬 方法详解
问题定义:论文旨在解决在小规模领域特定数据集上持续预训练大语言模型时,如何保护个人身份信息(PII)的隐私问题。现有方法要么直接使用原始数据,存在隐私泄露风险;要么使用通用数据集,无法有效学习领域知识。因此,如何在保护隐私的前提下,使LLM能够学习到特定领域的知识是一个挑战。
核心思路:论文的核心思路是利用合成数据进行持续预训练,并通过确定性加密技术对合成数据中的PII进行加密,从而在保护隐私的同时,使模型能够学习到领域知识。通过实体图指导数据合成,保证合成数据的质量和多样性。
技术框架:整体框架包含以下几个主要模块:1) 实体图构建:构建加权实体图,节点表示实体,边表示实体之间的关系,权重表示关系的强度。2) 数据合成:利用实体图指导数据合成,生成包含加密PII的合成文本。3) 持续预训练:使用合成的加密数据对LLM进行持续预训练,使模型学习领域知识。4) 授权访问:通过解密密钥,授权用户可以访问原始的PII数据。
关键创新:论文的关键创新在于提出了一种基于加密合成数据的持续预训练框架,该框架能够在保护PII隐私的同时,使LLM能够学习到特定领域的知识。通过实体图指导数据合成,保证了合成数据的质量和多样性。使用确定性加密技术,使得授权用户可以通过解密密钥访问原始的PII数据。
关键设计:论文的关键设计包括:1) 实体图的构建方法:使用加权实体图来表示实体之间的关系,权重可以根据关系的强度进行调整。2) 数据合成策略:使用实体图指导数据合成,可以生成包含多样化实体关系的文本。3) 确定性加密算法的选择:选择合适的确定性加密算法,保证加密后的数据可以被解密,并且加密过程是可重复的。4) 持续预训练的参数设置:调整持续预训练的学习率、batch size等参数,以获得最佳的模型性能。
📊 实验亮点
实验结果表明,使用加密合成数据进行持续预训练的模型,在性能上优于基础模型,并且能够有效保护PII的隐私。与在未加密合成数据上训练的模型相比,性能差距较小。此外,增加实体数量和利用图结构的合成方法可以进一步提高模型性能。加密模型在长检索上下文中仍然保持了良好的指令遵循能力。
🎯 应用场景
该研究成果可应用于医疗、金融等对数据隐私要求较高的领域。例如,可以使用加密合成的医疗数据训练LLM,辅助医生进行诊断和治疗,同时保护患者的隐私。在金融领域,可以使用加密合成的交易数据训练LLM,进行风险评估和欺诈检测,保护用户的金融信息安全。该技术有助于在数据安全的前提下,充分利用LLM的能力,推动各行业智能化发展。
📄 摘要(原文)
Preserving privacy in sensitive data while pretraining large language models on small, domain-specific corpora presents a significant challenge. In this work, we take an exploratory step toward privacy-preserving continual pretraining by proposing an entity-based framework that synthesizes encrypted training data to protect personally identifiable information (PII). Our approach constructs a weighted entity graph to guide data synthesis and applies deterministic encryption to PII entities, enabling LLMs to encode new knowledge through continual pretraining while granting authorized access to sensitive data through decryption keys. Our results on limited-scale datasets demonstrate that our pretrained models outperform base models and ensure PII security, while exhibiting a modest performance gap compared to models trained on unencrypted synthetic data. We further show that increasing the number of entities and leveraging graph-based synthesis improves model performance, and that encrypted models retain instruction-following capabilities with long retrieved contexts. We discuss the security implications and limitations of deterministic encryption, positioning this work as an initial investigation into the design space of encrypted data pretraining for privacy-preserving LLMs. Our code is available at https://github.com/DataArcTech/SoE.