Privacy Risks in Time Series Forecasting: User- and Record-Level Membership Inference

📄 arXiv: 2509.04169v1 📥 PDF

作者: Nicolas Johansson, Tobias Olsson, Daniel Nilsson, Johan Östman, Fazeleh Hoseini

分类: cs.LG

发布日期: 2025-09-04


💡 一句话要点

针对时间序列预测模型的用户和记录级别成员推理隐私风险研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 成员推理攻击 隐私风险 深度学习 用户级别隐私 模型安全 数据隐私 LSTM

📋 核心要点

  1. 现有成员推理攻击(MIA)在分类模型上研究较多,但在时间序列预测模型上的隐私风险评估不足。
  2. 论文提出两种新的MIA方法:改进的多元LiRA和端到端学习的深度时间序列(DTS)攻击,专门针对时间序列预测。
  3. 实验表明,时间序列预测模型容易受到用户和记录级别的MIA攻击,尤其是在用户级别攻击中表现突出。

📝 摘要(中文)

成员推理攻击(MIAs)旨在确定特定数据是否被用于训练模型。虽然在分类模型上已得到广泛研究,但它们对时间序列预测的影响仍然很大程度上未被探索。我们通过引入两种新的攻击来解决这一差距:(i)将多元LiRA(一种最初为分类模型开发的先进MIA)改编为时间序列预测设置,以及(ii)一种名为深度时间序列(DTS)攻击的新型端到端学习方法。我们针对来自分类设置的其他领先攻击的改编版本对这些方法进行基准测试。我们在TUH-EEG和ELD数据集上的真实设置中评估所有攻击,目标是LSTM和最先进的N-HiTS两种强大的预测架构,同时考虑记录和用户级别的威胁模型。我们的结果表明,预测模型容易受到攻击,用户级别的攻击通常可以实现完美的检测。所提出的方法在多种设置中实现了最强的性能,为时间序列预测中的隐私风险评估建立了新的基线。此外,脆弱性随着更长的预测范围和更小的训练人群而增加,这与大型语言模型中观察到的趋势相呼应。

🔬 方法详解

问题定义:论文旨在解决时间序列预测模型中的隐私泄露问题,具体而言,是成员推理攻击(MIA)的风险。现有MIA方法主要针对分类模型设计,直接应用于时间序列预测效果不佳,缺乏针对时间序列特性优化的攻击手段。此外,现有研究较少关注用户级别而非记录级别的隐私泄露,而用户级别泄露可能造成更大的危害。

核心思路:论文的核心思路是设计和改进MIA方法,使其能够有效攻击时间序列预测模型,并评估其在不同威胁模型下的隐私风险。针对分类模型设计的LiRA攻击被适配到时间序列预测场景,同时提出了一种全新的端到端学习方法DTS攻击,直接学习如何区分成员数据和非成员数据。

技术框架:整体框架包括训练目标时间序列预测模型(如LSTM或N-HiTS),然后使用MIA攻击该模型。MIA攻击包括两种主要方法:(1) 适配的多元LiRA攻击,该攻击基于目标模型的预测结果和训练数据的统计特征进行推理;(2) 新提出的DTS攻击,该攻击训练一个深度学习模型来区分目标模型的训练数据(成员)和非训练数据(非成员)。评估过程在TUH-EEG和ELD数据集上进行,考虑了记录级别和用户级别的威胁模型。

关键创新:论文的关键创新在于提出了针对时间序列预测模型的DTS攻击,这是一种端到端学习方法,能够直接从数据中学习如何进行成员推理。与传统的基于统计特征的MIA方法相比,DTS攻击能够更好地捕捉时间序列数据的复杂模式,从而提高攻击的成功率。此外,论文还首次系统地评估了时间序列预测模型在用户级别威胁模型下的隐私风险。

关键设计:DTS攻击使用深度神经网络作为分类器,输入是目标时间序列预测模型的预测结果和对应的输入时间序列数据。网络的具体结构(如卷积神经网络或循环神经网络)可以根据具体任务进行选择。损失函数通常使用二元交叉熵损失,用于区分成员数据和非成员数据。训练DTS攻击模型时,需要准备一定数量的成员数据和非成员数据,这些数据可以从与目标模型训练数据相似的分布中采样。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,时间序列预测模型容易受到MIA攻击,尤其是在用户级别攻击中,攻击成功率接近完美。DTS攻击在多种设置下表现最佳,为时间序列预测中的隐私风险评估建立了新的基线。研究还发现,预测范围越长、训练数据量越小,模型越容易受到攻击,这与大型语言模型中的观察结果一致。

🎯 应用场景

该研究成果可应用于医疗健康、金融、物联网等涉及时间序列数据预测的敏感领域。通过评估和缓解时间序列预测模型的隐私风险,可以保护用户数据安全,防止未经授权的访问和滥用。研究结果有助于开发更安全的预测模型,并为隐私保护技术提供指导。

📄 摘要(原文)

Membership inference attacks (MIAs) aim to determine whether specific data were used to train a model. While extensively studied on classification models, their impact on time series forecasting remains largely unexplored. We address this gap by introducing two new attacks: (i) an adaptation of multivariate LiRA, a state-of-the-art MIA originally developed for classification models, to the time-series forecasting setting, and (ii) a novel end-to-end learning approach called Deep Time Series (DTS) attack. We benchmark these methods against adapted versions of other leading attacks from the classification setting. We evaluate all attacks in realistic settings on the TUH-EEG and ELD datasets, targeting two strong forecasting architectures, LSTM and the state-of-the-art N-HiTS, under both record- and user-level threat models. Our results show that forecasting models are vulnerable, with user-level attacks often achieving perfect detection. The proposed methods achieve the strongest performance in several settings, establishing new baselines for privacy risk assessment in time series forecasting. Furthermore, vulnerability increases with longer prediction horizons and smaller training populations, echoing trends observed in large language models.