DPrivBench: Benchmarking LLMs' Reasoning for Differential Privacy
作者: Erchi Wang, Pengrun Huang, Eli Chien, Om Thakkar, Kamalika Chaudhuri, Yu-Xiang Wang, Ruihan Wu
分类: cs.LG, cs.AI, cs.CR
发布日期: 2026-04-17
💡 一句话要点
提出DPrivBench以自动化差分隐私推理问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 差分隐私 大型语言模型 自动化推理 基准测试 隐私保护
📋 核心要点
- 现有的差分隐私算法设计和验证方法对非专家要求较高,存在较大门槛。
- 本文提出DPrivBench基准,旨在利用大型语言模型自动化差分隐私推理,覆盖广泛的DP主题。
- 实验结果显示,虽然强模型在基础机制上表现良好,但在高级算法推理上仍存在显著不足。
📝 摘要(中文)
差分隐私(DP)在保护数据隐私方面有广泛应用,但设计和验证DP算法需要专家级推理能力,给非专家带来了高门槛。现有方法依赖于专业的验证语言或半自动化的过程,仍需人工干预。本文探讨大型语言模型(LLMs)在自动化DP推理中的应用,提出DPrivBench基准,涵盖多种DP主题和难度,旨在评估算法是否满足特定DP保证。实验表明,尽管最强模型在基础机制上表现良好,但在高级算法上普遍存在显著差距。通过分析和失败模式研究,识别出改进自动化DP推理的若干方向。
🔬 方法详解
问题定义:本文旨在解决差分隐私推理的自动化问题,现有方法依赖于专家知识或半自动化过程,难以普及。
核心思路:通过引入DPrivBench基准,利用大型语言模型来自动判断算法是否满足差分隐私保证,降低非专家的使用门槛。
技术框架:DPrivBench基准设计了多种实例,涵盖不同的DP主题和难度,避免简单的模式匹配推理。主要模块包括题目生成、模型推理和结果评估。
关键创新:DPrivBench的设计使得基准测试能够全面评估LLMs在DP推理中的能力,填补了现有数学推理基准的空白。
关键设计:基准实例设计考虑了多样性和难度,确保模型在推理时不依赖于简单的模式匹配,同时通过失败模式分析识别改进方向。
🖼️ 关键图片
📊 实验亮点
实验结果显示,尽管最强的语言模型在基础差分隐私机制上表现良好,但在处理复杂算法时普遍存在显著的推理能力不足,揭示了当前模型在DP推理能力上的重要缺口。
🎯 应用场景
该研究的潜在应用领域包括数据隐私保护、机器学习模型的安全性评估等。通过降低差分隐私算法的使用门槛,能够使更多非专家用户参与到隐私保护技术的应用中,推动相关技术的普及和发展。
📄 摘要(原文)
Differential privacy (DP) has a wide range of applications for protecting data privacy, but designing and verifying DP algorithms requires expert-level reasoning, creating a high barrier for non-expert practitioners. Prior works either rely on specialized verification languages that demand substantial domain expertise or remain semi-automated and require human-in-the-loop guidance. In this work, we investigate whether large language models (LLMs) can automate DP reasoning. We introduce DPrivBench, a benchmark in which each instance asks whether a function or algorithm satisfies a stated DP guarantee under specified assumptions. The benchmark is carefully designed to cover a broad range of DP topics, span diverse difficulty levels, and resist shortcut reasoning through trivial pattern matching. Experiments show that while the strongest models handle textbook mechanisms well, all models struggle with advanced algorithms, revealing substantial gaps in current DP reasoning capabilities. Through further analytic study and failure-mode analysis, we identify several promising directions for improving automated DP reasoning. Our benchmark provides a solid foundation for developing and evaluating such methods, and complements existing benchmarks for mathematical reasoning.