When Recovery Matters: The Blind Spot of Surrogate Privacy in MLLM Editing

📄 arXiv: 2606.07171v1 📥 PDF

作者: Siyuan Xu, Yibing Liu, Peilin Chen, Yung-Hui LI, Shiqi Wang, Sam Kwong

分类: cs.CV

发布日期: 2026-06-05


💡 一句话要点

提出SPPE以解决多模态大语言模型编辑中的隐私保护问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐私保护 多模态大语言模型 图像编辑 编辑性评估 替代到源恢复 循环一致性 深度学习

📋 核心要点

  1. 现有的隐私保护方法在云编辑中往往导致输出为编辑后的替代图像,而非期望的源图像,忽视了局部恢复的需求。
  2. 本文提出SPPE基准,定义了编辑性评估和替代到源编辑恢复两个任务,旨在提高编辑效果的保真度。
  3. 实验结果显示,ERMA和C2E-S2SER在各自任务上均显著优于现有最佳基线,提升了编辑一致性和源完整性。

📝 摘要(中文)

多模态大语言模型(MLLMs)支持灵活的指令驱动图像编辑,但用户图像可能暴露多样的私人内容,带来隐私风险。现有的隐私保护策略通常在云编辑前用替代内容替换敏感区域,导致输出结果往往是编辑后的替代图像,而非期望的源图像。为此,本文提出了SPPE(基于替代的隐私保护编辑),这是第一个关注恢复的基准,涵盖36个细粒度隐私类别和65个编辑指令。SPPE定义了两个互补任务:编辑性评估和替代到源编辑恢复。实验结果表明,ERMA在编辑性评估中相较于最佳基线提高了13.9%的SRCC和12.3%的PLCC,而C2E-S2SER在替代到源编辑恢复中在所有8个源完整性和编辑一致性指标上超越了SOER。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型编辑中隐私保护的盲点,现有方法在处理用户图像时未能有效恢复源图像,导致隐私风险和编辑效果不佳。

核心思路:提出SPPE基准,聚焦于恢复过程,定义编辑性评估和替代到源编辑恢复两个任务,以确保编辑效果与源图像一致。

技术框架:整体架构包括两个主要模块:ERMA用于编辑性评估,通过指令感知的多模态关系建模来预测替代图像的编辑性;C2E-S2SER用于替代到源编辑恢复,利用替代编辑对作为视觉编辑证据的源图像进行循环一致性恢复。

关键创新:SPPE是首个关注恢复的隐私保护编辑基准,ERMA和C2E-S2SER在任务设计和实现上均具有创新性,显著提升了编辑效果的保真度。

关键设计:ERMA采用多模态关系建模,考虑了指令信息;C2E-S2SER则通过循环一致性损失来确保编辑效果的保留,具体参数设置和网络结构在实验中经过优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,ERMA在编辑性评估中相较于最佳基线提高了13.9%的SRCC和12.3%的PLCC,C2E-S2SER在替代到源编辑恢复中在所有8个源完整性和编辑一致性指标上超越了SOER,展示了显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括图像编辑软件、社交媒体平台和在线图像处理服务,能够有效保护用户隐私,同时提升编辑效果的质量。未来,随着隐私保护需求的增加,该方法可能在更多领域得到广泛应用,推动隐私保护技术的发展。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) enable flexible instruction-driven image editing, but privacy risks arise when user images expose diverse and user-specific private content. Canonical privacy protection strategies typically substitute sensitive regions with surrogate content before cloud editing. Yet, the resulting output is often an edited surrogate rather than the desired edited source image, neglecting the local recovery in both design and evaluation scope. To this end, we introduce SPPE (Surrogate-based Privacy-Preserving Editing), the first recovery-oriented benchmark covering 36 fine-grained privacy categories and 65 editing instructions. It defines two complementary tasks: 1) editability assessment, which estimates before cloud interaction whether a surrogate can induce an edit consistent with the original image; and 2) surrogate-to-source edit recovery, which evaluates whether the edited surrogate can be transferred back to the private source with the edit effect preserved. We address each task with a dedicated method: ERMA predicts surrogate editability through instruction-aware multimodal relation modeling, while \method performs cycle-consistent recovery by using the surrogate editing pair as visual edit evidence and the source image as a source-preserving anchor. Experiments on SPPE and InstructPix2Pix show consistent improvements on both tasks. For editability assessment, ERMA improves over the best-performing baselines by 13.9% in SRCC and 12.3% in PLCC. For surrogate-to-source edit recovery, C2E-S2SER outperforms SOER across all 8 source integrity and edit consistency metrics on SPPE.