ACTG-ARL: Differentially Private Conditional Text Generation with RL-Boosted Control

📄 arXiv: 2510.18232v1 📥 PDF

作者: Yuzheng Hu, Ryan McKenna, Da Yu, Shanshan Wu, Han Zhao, Zheng Xu, Peter Kairouz

分类: cs.LG, cs.CR

发布日期: 2025-10-21


💡 一句话要点

提出ACTG-ARL框架,通过强化学习提升差分隐私条件文本生成质量与控制能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 差分隐私 文本生成 强化学习 条件生成 数据合成

📋 核心要点

  1. 现有差分隐私文本生成方法难以兼顾数据效用、隐私保护和生成控制,面临统计属性损失和噪声干扰等问题。
  2. ACTG-ARL将生成任务分解为特征学习和条件生成,利用表格模式作为特征,并结合差分隐私机制,简化端到端合成。
  3. ARL通过强化学习提升条件生成器遵循指令的能力,并使用SFT锚定防止奖励黑客,显著提升了生成质量和控制能力。

📝 摘要(中文)

在差分隐私(DP)下生成高质量的合成文本对于训练和评估语言模型至关重要,同时不损害用户隐私。以往的DP合成数据集工作通常无法保留关键的统计属性,并且由于DP所需的噪声而导致效用损失,并且缺乏对生成过程的细粒度控制。为了解决这些挑战,我们做出了两项贡献。首先,我们引入了一个分层框架,将DP合成文本生成分解为两个子任务:特征学习和条件文本生成。这种设计显式地将学习到的特征纳入生成过程,并简化了端到端的合成任务。通过系统的消融实验,我们确定了最有效的配置:一个丰富的表格模式作为特征,一个DP表格合成器,以及一个DP微调的条件生成器,我们称之为ACTG(属性条件文本生成)。其次,我们提出了一种名为Anchored RL (ARL)的后训练方法,该方法提高了ACTG在条件生成中遵循指令的能力。ARL结合了强化学习来增强控制,并结合了best-of-$N$数据的SFT锚定,以防止奖励黑客。这些组件共同构成了我们的端到端算法ACTG-ARL,该算法在强大的隐私保证下,提高了DP合成文本的质量(比以往的工作提高了+20% MAUVE)和条件生成器的控制能力。

🔬 方法详解

问题定义:论文旨在解决在差分隐私约束下,如何生成高质量且可控的合成文本数据的问题。现有方法在保护隐私的同时,往往会牺牲生成文本的质量和多样性,并且难以对生成过程进行细粒度的控制。这限制了合成数据在语言模型训练和评估中的应用。

核心思路:论文的核心思路是将差分隐私文本生成任务分解为两个子任务:特征学习和条件文本生成。通过显式地学习和利用特征,可以更好地保留原始数据的统计属性,并提高生成文本的质量。同时,利用强化学习来提升条件生成器遵循指令的能力,从而实现对生成过程的更精确控制。

技术框架:ACTG-ARL框架包含以下几个主要模块:1) 特征学习模块:使用差分隐私表格合成器从原始数据中学习表格模式作为特征。2) 条件生成模块:使用差分隐私微调的条件生成器,根据学习到的特征生成文本。3) 强化学习模块:使用Anchored RL (ARL)方法,通过强化学习来提升条件生成器遵循指令的能力。整体流程是先进行特征学习,然后使用学习到的特征进行条件文本生成,最后使用ARL进行后训练,以提高生成质量和控制能力。

关键创新:论文的关键创新在于:1) 提出了一个分层框架,将差分隐私文本生成分解为特征学习和条件生成两个子任务。2) 提出了Anchored RL (ARL)方法,该方法结合了强化学习和监督学习,可以有效地提升条件生成器遵循指令的能力,同时防止奖励黑客。3) 将表格模式作为特征,并将其显式地纳入生成过程,从而更好地保留了原始数据的统计属性。

关键设计:在特征学习模块中,使用了差分隐私表格合成器,以确保学习到的特征满足差分隐私的要求。在条件生成模块中,使用了差分隐私微调的条件生成器,以确保生成过程满足差分隐私的要求。在强化学习模块中,ARL方法使用了奖励函数来鼓励生成器遵循指令,并使用SFT锚定来防止奖励黑客。具体来说,ARL使用best-of-$N$策略,选择N个生成结果中奖励最高的样本,并使用监督学习对生成器进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ACTG-ARL框架在差分隐私条件下,显著提高了合成文本的质量和控制能力。与现有方法相比,ACTG-ARL在MAUVE指标上提升了+20%。这表明ACTG-ARL能够生成更接近真实数据的合成文本,并且能够更好地控制生成过程。

🎯 应用场景

该研究成果可应用于各种需要保护用户隐私的文本数据生成场景,例如:医疗记录合成、金融交易数据生成、社交媒体内容生成等。通过生成高质量的差分隐私合成数据,可以安全地训练和评估语言模型,促进自然语言处理技术的发展,同时保护用户隐私。

📄 摘要(原文)

Generating high-quality synthetic text under differential privacy (DP) is critical for training and evaluating language models without compromising user privacy. Prior work on synthesizing DP datasets often fail to preserve key statistical attributes, suffer utility loss from the noise required by DP, and lack fine-grained control over generation. To address these challenges, we make two contributions. First, we introduce a hierarchical framework that decomposes DP synthetic text generation into two subtasks: feature learning and conditional text generation. This design explicitly incorporates learned features into the generation process and simplifies the end-to-end synthesis task. Through systematic ablations, we identify the most effective configuration: a rich tabular schema as feature, a DP tabular synthesizer, and a DP fine-tuned conditional generator, which we term ACTG (Attribute-Conditioned Text Generation). Second, we propose Anchored RL (ARL), a post-training method that improves the instruction-following ability of ACTG for conditional generation. ARL combines RL to boost control with an SFT anchor on best-of-$N$ data to prevent reward hacking. Together, these components form our end-to-end algorithm ACTG-ARL, which advances both the quality of DP synthetic text (+20% MAUVE over prior work) and the control of the conditional generator under strong privacy guarantees.