Preserving Cross-Modal Stability for Visual Unlearning in Multimodal Scenarios

📄 arXiv: 2509.23895v1 📥 PDF

作者: Jinghan Xu Yuyang Zhang Qixuan Cai Jiancheng Chen Keqiu Li

分类: cs.CV, cs.AI

发布日期: 2025-09-28

备注: 9 pages,4 figures


💡 一句话要点

提出跨模态对比解学习框架CCU,解决多模态场景下视觉解学习的知识保留问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 机器解学习 对比学习 隐私保护 视觉解学习

📋 核心要点

  1. 现有视觉解学习方法在多模态场景下,难以兼顾视觉隐私移除和跨模态知识的保留,导致其他模态性能下降。
  2. 提出跨模态对比解学习框架CCU,通过选择性视觉解学习、跨模态知识保留和双集对比分离三个模块,实现更好的解学习效果。
  3. 实验表明,CCU在保证视觉隐私移除的同时,显著提升了整体和其他模态的性能,且解学习时间更短。

📝 摘要(中文)

在视觉和雷达数据融合的自动驾驶等实际多模态应用中,视觉模态最容易发生隐私泄露。机器解学习旨在从预训练模型中移除特定训练数据以解决隐私泄露问题。然而,现有方法无法保持跨模态知识,也无法维持保留数据的类内结构稳定性,导致视觉解学习期间整体性能和其他模态的性能下降。为了解决这些挑战,我们提出了一个跨模态对比解学习(CCU)框架,该框架集成了三个关键组件:(a)选择性视觉解学习:采用逆对比学习将视觉表征与其原始语义分离;(b)跨模态知识保留:通过语义一致性保持其他模态的可区分性;(c)双集对比分离:通过隔离解学习集和保留集之间的结构扰动来保持模型性能。在三个数据集上的大量实验表明了CCU的优越性,与最高精度的基线相比,我们的方法仅用7%的解学习时间就实现了7.12%的精度提升。

🔬 方法详解

问题定义:论文旨在解决多模态场景下,视觉解学习过程中,如何有效移除视觉模态的特定信息,同时保持其他模态的性能以及保留数据的结构稳定性。现有方法的痛点在于,解学习过程容易破坏跨模态知识的关联性,并对保留数据的表征造成扰动,导致整体性能下降。

核心思路:论文的核心思路是通过对比学习的方式,在解学习过程中显式地解耦视觉表征和原始语义,同时利用跨模态信息保持其他模态的区分性。此外,通过对比分离策略,减小解学习操作对保留数据结构的影响,从而维持模型整体性能。

技术框架:CCU框架包含三个主要模块:(1) 选择性视觉解学习模块,使用逆对比学习将视觉表征与其原始语义解耦;(2) 跨模态知识保留模块,通过语义一致性约束,保持其他模态的可区分性;(3) 双集对比分离模块,通过对比学习,减小解学习集和保留集之间的结构扰动。

关键创新:该论文的关键创新在于将对比学习的思想引入到多模态解学习中,通过逆对比学习实现选择性视觉解学习,并利用跨模态信息和双集对比分离策略,有效解决了传统解学习方法在多模态场景下的知识保留和结构稳定性问题。与现有方法相比,CCU能够更有效地移除视觉隐私信息,同时保持或提升其他模态的性能。

关键设计:在选择性视觉解学习模块中,使用逆对比损失函数,鼓励解学习后的视觉表征与原始语义的负样本更接近,从而实现信息移除。在跨模态知识保留模块中,使用对比损失函数,鼓励不同模态的相同语义样本的表征更接近。在双集对比分离模块中,使用对比损失函数,最小化解学习集和保留集之间的表征差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CCU框架在三个数据集上均取得了显著的性能提升。与最高精度的基线方法相比,CCU仅使用7%的解学习时间,就实现了7.12%的精度提升。这表明CCU在保证解学习效率的同时,能够更有效地保留跨模态知识和维持模型性能。

🎯 应用场景

该研究成果可应用于自动驾驶、医疗影像分析、智能监控等涉及多模态数据的隐私保护场景。通过选择性地移除敏感的视觉信息,同时保留其他模态的信息,可以有效防止隐私泄露,并提升系统的安全性和可靠性。未来,该方法有望推广到更多模态和更复杂的解学习任务中。

📄 摘要(原文)

Visual modality is the most vulnerable to privacy leakage in real-world multimodal applications like autonomous driving with visual and radar data; Machine unlearning removes specific training data from pre-trained models to address privacy leakage, however, existing methods fail to preserve cross-modal knowledge and maintain intra-class structural stability of retain data, leading to reduced overall and other modalities' performance during visual unlearning; to address these challenges, we propose a Cross-modal Contrastive Unlearning (CCU) framework, which integrates three key components: (a) selective visual unlearning: employing inverse contrastive learning to dissociate visual representations from their original semantics, (b) cross-modal knowledge retention: preserving other modalities' discriminability through semantic consistency, and (c) dual-set contrastive separation: preserving the model performance via isolation of structural perturbations between the unlearn set and retain set; extensive experiments on three datasets demonstrate the superiority of CCU, and our method achieves a 7.12% accuracy improvement with only 7% of the unlearning time compared to the top-accuracy baseline.