TraceHiding: Scalable Machine Unlearning for Mobility Data
作者: Ali Faraji, Manos Papagelis
分类: cs.LG, cs.CY
发布日期: 2025-09-21
💡 一句话要点
提出TraceHiding框架以解决移动数据的机器遗忘问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器遗忘 移动数据 隐私保护 重要性评分 教师-学生蒸馏 深度学习 轨迹数据 模型优化
📋 核心要点
- 现有方法在处理用户隐私时,无法有效地从模型中删除特定用户的轨迹,导致隐私泄露风险。
- TraceHiding通过引入重要性评分和教师-学生蒸馏机制,实现了对高影响数据的有针对性遗忘,避免了全面重训练。
- 实验结果显示,TraceHiding在多个数据集上实现了最高40倍的速度提升,同时保持了测试准确率的最小损失。
📝 摘要(中文)
本文介绍了TraceHiding,一个可扩展的、重视重要性的机器遗忘框架,专为移动轨迹数据设计。受GDPR和CCPA等隐私法规的启发,TraceHiding能够在不进行全面重训练的情况下,从训练好的深度模型中移除特定用户的轨迹。该框架结合了分层的数据驱动重要性评分方案与教师-学生蒸馏技术,通过计算样本的覆盖多样性、熵和长度等统计特性,量化每个训练样本的影响,从而实现高影响数据的有针对性遗忘,同时保留常见模式。实验结果表明,TraceHiding在多个真实世界的高阶移动数据集上表现出色,尤其是其基于熵的变体在遗忘准确性和抗成员推断攻击能力方面均优于现有基线。
🔬 方法详解
问题定义:本文旨在解决在移动轨迹数据中,如何有效地从训练好的深度学习模型中删除特定用户轨迹的问题。现有方法通常需要全面重训练,效率低下且难以满足隐私法规的要求。
核心思路:TraceHiding的核心思想是结合重要性评分与教师-学生蒸馏,通过量化每个样本的影响力,实现对高影响数据的有针对性遗忘,同时保留模型对常见模式的学习。
技术框架:TraceHiding的整体架构包括三个主要模块:重要性评分计算、教师-学生蒸馏过程和重要性加权损失函数。首先,通过统计特性计算每个样本的重要性评分,然后利用教师模型指导学生模型进行学习,最后通过加权损失实现目标轨迹的遗忘。
关键创新:TraceHiding的主要创新在于其重要性评分机制,能够在不同层次(token、轨迹、用户)上量化样本影响力,与现有方法相比,能够更精确地实现有针对性的遗忘。
关键设计:在损失函数设计上,TraceHiding采用了重要性加权策略,增强了对独特样本的遗忘信号,同时减弱了对频繁样本的遗忘信号,从而提高了遗忘的有效性和模型的稳定性。重要性评分的计算涉及覆盖多样性、熵和长度等统计特性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TraceHiding在多个真实世界的高阶移动数据集上表现优异,特别是其基于熵的变体在遗忘准确性上优于现有基线,且在成员推断攻击(MIA)方面展现出竞争力,速度提升可达40倍,同时测试准确率损失极小。
🎯 应用场景
TraceHiding框架在多个领域具有广泛的应用潜力,尤其是在需要遵循隐私法规的移动数据分析、智能交通系统和个性化服务中。其高效的遗忘机制可以帮助企业在保护用户隐私的同时,保持模型的有效性和准确性,未来可能推动更安全的人工智能应用发展。
📄 摘要(原文)
This work introduces TraceHiding, a scalable, importance-aware machine unlearning framework for mobility trajectory data. Motivated by privacy regulations such as GDPR and CCPA granting users "the right to be forgotten," TraceHiding removes specified user trajectories from trained deep models without full retraining. It combines a hierarchical data-driven importance scoring scheme with teacher-student distillation. Importance scores--computed at token, trajectory, and user levels from statistical properties (coverage diversity, entropy, length)--quantify each training sample's impact, enabling targeted forgetting of high-impact data while preserving common patterns. The student model retains knowledge on remaining data and unlearns targeted trajectories through an importance-weighted loss that amplifies forgetting signals for unique samples and attenuates them for frequent ones. We validate on Trajectory--User Linking (TUL) tasks across three real-world higher-order mobility datasets (HO-Rome, HO-Geolife, HO-NYC) and multiple architectures (GRU, LSTM, BERT, ModernBERT, GCN-TULHOR), against strong unlearning baselines including SCRUB, NegGrad, NegGrad+, Bad-T, and Finetuning. Experiments under uniform and targeted user deletion show TraceHiding, especially its entropy-based variant, achieves superior unlearning accuracy, competitive membership inference attack (MIA) resilience, and up to 40\times speedup over retraining with minimal test accuracy loss. Results highlight robustness to adversarial deletion of high-information users and consistent performance across models. To our knowledge, this is the first systematic study of machine unlearning for trajectory data, providing a reproducible pipeline with public code and preprocessing tools.