Unsafe2Safe: Controllable Image Anonymization for Downstream Utility
作者: Mih Dinh, SouYoung Jin
分类: cs.CV, cs.CY, cs.LG
发布日期: 2026-03-30
备注: Accepted at CVPR 2026 and CVPR 2026 Workshop on Machine Unlearning for Computer Vision
💡 一句话要点
Unsafe2Safe:提出可控图像匿名化方法,保障隐私同时维持下游任务性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像匿名化 隐私保护 扩散模型 视觉-语言模型 数据安全
📋 核心要点
- 现有大规模图像数据集存在隐私泄露风险,模型可能记忆并泄露敏感信息。
- Unsafe2Safe利用视觉-语言模型和扩散编辑,自动检测并重写图像中的敏感区域,生成隐私安全图像。
- 实验表明,Unsafe2Safe在降低隐私泄露风险的同时,保持了下游任务的性能,并提升了图像质量。
📝 摘要(中文)
大规模图像数据集常包含可识别或敏感内容,训练模型可能记忆并泄露此类信息,带来隐私风险。本文提出Unsafe2Safe,一个全自动流程,检测易泄露隐私的图像,并使用多模态引导的扩散编辑重写其敏感区域。Unsafe2Safe分两个阶段:第一阶段使用视觉-语言模型(i)检查图像的隐私风险,(ii)生成配对的私有和公共描述,分别包含和省略敏感属性,以及(iii)提示大型语言模型生成结构化的、身份中立的编辑指令,以公共描述为条件。第二阶段采用指令驱动的扩散编辑器应用这些双重文本提示,生成隐私安全的图像,同时保留全局结构和任务相关的语义,并中和私有内容。为了衡量匿名化质量,我们引入了一个统一的评估套件,涵盖质量、欺骗、隐私和效用维度。在MS-COCO、Caltech101和MIT Indoor67数据集上,Unsafe2Safe大幅降低了人脸相似度、文本相似度和人口统计学可预测性,同时保持了与原始数据训练相当的下游模型精度。在自动生成的三元组(私有描述、公共描述、编辑指令)上微调扩散编辑器,进一步提高了隐私保护和语义保真度。Unsafe2Safe为构建大型、隐私安全的数据集提供了一个可扩展的、有原则的解决方案,且不牺牲视觉一致性或下游效用。
🔬 方法详解
问题定义:论文旨在解决大规模图像数据集中存在的隐私泄露问题。现有方法要么完全移除图像,要么采用简单的模糊处理,前者损失了大量有用信息,后者效果不佳,无法有效保护隐私。因此,需要一种既能保护隐私,又能保留图像语义信息的方法。
核心思路:论文的核心思路是利用视觉-语言模型检测图像中的隐私风险,并生成相应的编辑指令,然后使用扩散模型根据这些指令对图像进行编辑,从而实现可控的图像匿名化。这种方法可以在保护隐私的同时,尽可能地保留图像的语义信息,保证下游任务的性能。
技术框架:Unsafe2Safe包含两个主要阶段: 1. 隐私风险检测与指令生成:使用视觉-语言模型检查图像的隐私风险,生成包含敏感属性的私有描述和省略敏感属性的公共描述。然后,利用大型语言模型,以公共描述为条件,生成结构化的、身份中立的编辑指令。 2. 图像编辑:采用指令驱动的扩散编辑器,根据私有描述、公共描述和编辑指令,对图像进行编辑,生成隐私安全的图像。
关键创新:该方法最重要的创新点在于结合了视觉-语言模型和扩散模型,实现了可控的图像匿名化。通过视觉-语言模型检测隐私风险并生成编辑指令,可以精确地控制图像的编辑过程,从而在保护隐私的同时,尽可能地保留图像的语义信息。与现有方法相比,该方法更加灵活和有效。
关键设计: * 使用CLIP模型进行隐私风险检测。 * 使用GPT-3等大型语言模型生成编辑指令。 * 使用Stable Diffusion等扩散模型进行图像编辑。 * 引入统一的评估套件,涵盖质量、欺骗、隐私和效用维度。 * 通过在自动生成的三元组上微调扩散编辑器,进一步提高隐私保护和语义保真度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Unsafe2Safe在MS-COCO、Caltech101和MIT Indoor67数据集上,大幅降低了人脸相似度、文本相似度和人口统计学可预测性,同时保持了与原始数据训练相当的下游模型精度。例如,在人脸相似度方面,Unsafe2Safe降低了超过50%的相似度得分。此外,通过在自动生成的三元组上微调扩散编辑器,进一步提高了隐私保护和语义保真度。
🎯 应用场景
Unsafe2Safe可应用于构建大规模、隐私安全的图像数据集,用于训练各种机器学习模型。例如,在医疗影像、自动驾驶、人脸识别等领域,可以利用该方法对数据进行匿名化处理,从而降低隐私泄露的风险,促进相关技术的发展。该方法还可用于保护个人用户的隐私,例如在社交媒体平台上,用户可以使用该方法对上传的图像进行匿名化处理,从而避免个人信息被泄露。
📄 摘要(原文)
Large-scale image datasets frequently contain identifiable or sensitive content, raising privacy risks when training models that may memorize and leak such information. We present Unsafe2Safe, a fully automated pipeline that detects privacy-prone images and rewrites only their sensitive regions using multimodally guided diffusion editing. Unsafe2Safe operates in two stages. Stage 1 uses a vision-language model to (i) inspect images for privacy risks, (ii) generate paired private and public captions that respectively include and omit sensitive attributes, and (iii) prompt a large language model to produce structured, identity-neutral edit instructions conditioned on the public caption. Stage 2 employs instruction-driven diffusion editors to apply these dual textual prompts, producing privacy-safe images that preserve global structure and task-relevant semantics while neutralizing private content. To measure anonymization quality, we introduce a unified evaluation suite covering Quality, Cheating, Privacy, and Utility dimensions. Across MS-COCO, Caltech101, and MIT Indoor67, Unsafe2Safe reduces face similarity, text similarity, and demographic predictability by large margins, while maintaining downstream model accuracy comparable to training on raw data. Fine-tuning diffusion editors on our automatically generated triplets (private caption, public caption, edit instruction) further improves both privacy protection and semantic fidelity. Unsafe2Safe provides a scalable, principled solution for constructing large, privacy-safe datasets without sacrificing visual consistency or downstream utility.