Unsafe2Safe: Controllable Image Anonymization for Downstream Utility

作者: Mih Dinh, SouYoung Jin

分类: cs.CV, cs.CY, cs.LG

发布日期: 2026-03-30

备注: Accepted at CVPR 2026 and CVPR 2026 Workshop on Machine Unlearning for Computer Vision

💡 一句话要点

Unsafe2Safe：提出可控图像匿名化方法，保障隐私同时维持下游任务性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像匿名化 隐私保护 扩散模型 视觉-语言模型 数据安全

📋 核心要点

现有大规模图像数据集存在隐私泄露风险，模型可能记忆并泄露敏感信息。
Unsafe2Safe利用视觉-语言模型和扩散编辑，自动检测并重写图像中的敏感区域，生成隐私安全图像。
实验表明，Unsafe2Safe在降低隐私泄露风险的同时，保持了下游任务的性能，并提升了图像质量。

📝 摘要（中文）

大规模图像数据集常包含可识别或敏感内容，训练模型可能记忆并泄露此类信息，带来隐私风险。本文提出Unsafe2Safe，一个全自动流程，检测易泄露隐私的图像，并使用多模态引导的扩散编辑重写其敏感区域。Unsafe2Safe分两个阶段：第一阶段使用视觉-语言模型（i）检查图像的隐私风险，（ii）生成配对的私有和公共描述，分别包含和省略敏感属性，以及（iii）提示大型语言模型生成结构化的、身份中立的编辑指令，以公共描述为条件。第二阶段采用指令驱动的扩散编辑器应用这些双重文本提示，生成隐私安全的图像，同时保留全局结构和任务相关的语义，并中和私有内容。为了衡量匿名化质量，我们引入了一个统一的评估套件，涵盖质量、欺骗、隐私和效用维度。在MS-COCO、Caltech101和MIT Indoor67数据集上，Unsafe2Safe大幅降低了人脸相似度、文本相似度和人口统计学可预测性，同时保持了与原始数据训练相当的下游模型精度。在自动生成的三元组（私有描述、公共描述、编辑指令）上微调扩散编辑器，进一步提高了隐私保护和语义保真度。Unsafe2Safe为构建大型、隐私安全的数据集提供了一个可扩展的、有原则的解决方案，且不牺牲视觉一致性或下游效用。

🔬 方法详解

问题定义：论文旨在解决大规模图像数据集中存在的隐私泄露问题。现有方法要么完全移除图像，要么采用简单的模糊处理，前者损失了大量有用信息，后者效果不佳，无法有效保护隐私。因此，需要一种既能保护隐私，又能保留图像语义信息的方法。

核心思路：论文的核心思路是利用视觉-语言模型检测图像中的隐私风险，并生成相应的编辑指令，然后使用扩散模型根据这些指令对图像进行编辑，从而实现可控的图像匿名化。这种方法可以在保护隐私的同时，尽可能地保留图像的语义信息，保证下游任务的性能。

技术框架：Unsafe2Safe包含两个主要阶段： 1. 隐私风险检测与指令生成：使用视觉-语言模型检查图像的隐私风险，生成包含敏感属性的私有描述和省略敏感属性的公共描述。然后，利用大型语言模型，以公共描述为条件，生成结构化的、身份中立的编辑指令。 2. 图像编辑：采用指令驱动的扩散编辑器，根据私有描述、公共描述和编辑指令，对图像进行编辑，生成隐私安全的图像。

关键创新：该方法最重要的创新点在于结合了视觉-语言模型和扩散模型，实现了可控的图像匿名化。通过视觉-语言模型检测隐私风险并生成编辑指令，可以精确地控制图像的编辑过程，从而在保护隐私的同时，尽可能地保留图像的语义信息。与现有方法相比，该方法更加灵活和有效。

关键设计： * 使用CLIP模型进行隐私风险检测。 * 使用GPT-3等大型语言模型生成编辑指令。 * 使用Stable Diffusion等扩散模型进行图像编辑。 * 引入统一的评估套件，涵盖质量、欺骗、隐私和效用维度。 * 通过在自动生成的三元组上微调扩散编辑器，进一步提高隐私保护和语义保真度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Unsafe2Safe在MS-COCO、Caltech101和MIT Indoor67数据集上，大幅降低了人脸相似度、文本相似度和人口统计学可预测性，同时保持了与原始数据训练相当的下游模型精度。例如，在人脸相似度方面，Unsafe2Safe降低了超过50%的相似度得分。此外，通过在自动生成的三元组上微调扩散编辑器，进一步提高了隐私保护和语义保真度。

🎯 应用场景

Unsafe2Safe可应用于构建大规模、隐私安全的图像数据集，用于训练各种机器学习模型。例如，在医疗影像、自动驾驶、人脸识别等领域，可以利用该方法对数据进行匿名化处理，从而降低隐私泄露的风险，促进相关技术的发展。该方法还可用于保护个人用户的隐私，例如在社交媒体平台上，用户可以使用该方法对上传的图像进行匿名化处理，从而避免个人信息被泄露。

📄 摘要（原文）

Large-scale image datasets frequently contain identifiable or sensitive content, raising privacy risks when training models that may memorize and leak such information. We present Unsafe2Safe, a fully automated pipeline that detects privacy-prone images and rewrites only their sensitive regions using multimodally guided diffusion editing. Unsafe2Safe operates in two stages. Stage 1 uses a vision-language model to (i) inspect images for privacy risks, (ii) generate paired private and public captions that respectively include and omit sensitive attributes, and (iii) prompt a large language model to produce structured, identity-neutral edit instructions conditioned on the public caption. Stage 2 employs instruction-driven diffusion editors to apply these dual textual prompts, producing privacy-safe images that preserve global structure and task-relevant semantics while neutralizing private content. To measure anonymization quality, we introduce a unified evaluation suite covering Quality, Cheating, Privacy, and Utility dimensions. Across MS-COCO, Caltech101, and MIT Indoor67, Unsafe2Safe reduces face similarity, text similarity, and demographic predictability by large margins, while maintaining downstream model accuracy comparable to training on raw data. Fine-tuning diffusion editors on our automatically generated triplets (private caption, public caption, edit instruction) further improves both privacy protection and semantic fidelity. Unsafe2Safe provides a scalable, principled solution for constructing large, privacy-safe datasets without sacrificing visual consistency or downstream utility.

Unsafe2Safe: Controllable Image Anonymization for Downstream Utility

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理