Differentially Private Preference Data Synthesis for Large Language Model Alignment

📄 arXiv: 2605.30808v1 📥 PDF

作者: Fengyu Gao, Jing Yang

分类: cs.CR, cs.AI, cs.LG

发布日期: 2026-05-29

备注: Accepted to ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出DPPrefSyn算法,用于生成差分隐私偏好数据,以对齐大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 差分隐私 偏好学习 大语言模型 数据合成 隐私保护 模型对齐 DP-PCA

📋 核心要点

  1. 现有大语言模型偏好对齐方法依赖于包含敏感信息的人工标注数据,存在隐私泄露风险。
  2. DPPrefSyn算法通过差分隐私技术生成合成偏好数据,用于大语言模型的对齐训练,保护用户隐私。
  3. 实验表明,DPPrefSyn在保证隐私的前提下,实现了与真实数据相近的对齐性能,具有实际应用潜力。

📝 摘要(中文)

为了确保大语言模型的输出与人类价值观对齐,偏好对齐是一个关键的后训练步骤。然而,在真实人类偏好数据上进行后训练会引发隐私问题,因为这些数据集通常包含敏感的用户提示和人类判断。为了解决这个问题,我们提出了一种新的算法DPPrefSyn,用于生成差分隐私(DP)合成偏好数据,以实现隐私保护的偏好对齐。DPPrefSyn是一个基于Bradley-Terry偏好模型和成对人类偏好数据的内在几何结构的框架。它首先在形式化差分隐私保证下,从私有数据中学习潜在的偏好模型,然后利用学习到的模型和公共提示来合成高质量的偏好数据。它利用每个聚类奖励模型的共享线性结构来有效地捕获私有数据集中异构的人类偏好,并利用DP主成分分析(DP-PCA)来提高学习精度。大量的实验结果表明,DPPrefSyn在强大的DP保证下实现了有竞争力的对齐性能。这些发现突出了合成偏好数据作为在广泛应用中进行隐私保护偏好对齐的实用替代方案的潜力。据我们所知,这是第一个为LLM对齐生成DP合成偏好数据的工作。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)偏好对齐过程中,使用真实人类偏好数据带来的隐私泄露问题。现有方法直接在包含敏感用户提示和人类判断的真实数据上进行训练,无法提供有效的隐私保护。

核心思路:论文的核心思路是生成差分隐私(DP)的合成偏好数据,替代真实数据用于LLM的偏好对齐训练。通过在合成数据生成过程中引入差分隐私机制,可以有效防止从合成数据中推断出关于真实数据的敏感信息。

技术框架:DPPrefSyn算法主要包含以下几个阶段:1) 从私有数据中学习潜在的偏好模型,该过程满足差分隐私;2) 利用学习到的偏好模型和公共提示,生成合成偏好数据;3) 使用合成数据对LLM进行偏好对齐训练。算法利用Bradley-Terry模型对偏好关系建模,并采用DP-PCA提高学习精度。

关键创新:该论文的关键创新在于提出了一个完整的差分隐私偏好数据合成框架,专门用于LLM的对齐训练。与以往的通用数据合成方法不同,DPPrefSyn针对偏好数据的特性进行了优化,例如利用聚类奖励模型的共享线性结构来捕获异构的人类偏好。

关键设计:算法的关键设计包括:1) 使用差分隐私机制保护偏好模型学习过程,例如使用DP-PCA进行降维;2) 利用Bradley-Terry模型对成对偏好关系进行建模,并设计相应的损失函数;3) 通过聚类分析识别不同的偏好群体,并为每个群体学习独立的奖励模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DPPrefSyn算法在保证较强差分隐私保护的前提下,能够生成高质量的合成偏好数据,并实现与使用真实数据相近的LLM对齐性能。具体而言,该算法在多个数据集上取得了具有竞争力的结果,证明了其在隐私保护和模型性能之间的良好平衡。

🎯 应用场景

该研究成果可应用于各种需要进行偏好对齐的大语言模型应用场景,例如对话系统、文本生成、推荐系统等。通过使用差分隐私合成数据,可以在保护用户隐私的前提下,提升LLM的性能和安全性,促进LLM在医疗、金融等敏感领域的应用。

📄 摘要(原文)

Preference alignment is a crucial post-training step for large language models (LLMs) to ensure their outputs align with human values. However, post-training on real human preference data raises privacy concerns, as these datasets often contain sensitive user prompts and human judgments. To address this, we propose DPPrefSyn, a novel algorithm for generating differentially private (DP) synthetic preference data to enable privacy-preserving preference alignment. DPPrefSyn is a principled framework grounded in the Bradley-Terry preference model and the intrinsic geometric structure of pairwise human preference data. It first learns an underlying preference model from private data with formal differential privacy guarantees, and then leverages the learned model together with public prompts to synthesize high-quality preference data. It exploits the shared linear structure of per-cluster reward models to effectively capture heterogeneous human preferences in private datasets, and leverages DP Principal Component Analysis (DP-PCA) to improve learning accuracy. Extensive experimental results demonstrate that DPPrefSyn achieves competitive alignment performance under strong DP guarantees. These findings highlight the potential of synthetic preference data as a practical alternative for privacy-preserving preference alignment across a broad range of applications. To the best of our knowledge, this is the first work to generate DP synthetic preference data for LLM alignment. Our code is available at https://github.com/gfengyu/Differentially-Private-Preference-Data-Synthesis.