Privacy Risks in Time Series Forecasting: User- and Record-Level Membership Inference

📄 arXiv: 2509.04169v1 📥 PDF

作者: Nicolas Johansson, Tobias Olsson, Daniel Nilsson, Johan Östman, Fazeleh Hoseini

分类: cs.LG

发布日期: 2025-09-04


💡 一句话要点

针对时间序列预测模型的用户和记录级别成员推理隐私风险研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列预测 成员推理攻击 隐私风险 深度学习 用户隐私

📋 核心要点

  1. 现有成员推理攻击(MIA)在分类模型上研究较多,但在时间序列预测领域的研究不足,缺乏针对性的攻击方法。
  2. 论文提出了两种新的MIA方法:一是将先进的多元LiRA攻击适配到时间序列预测;二是提出一种端到端学习的深度时间序列(DTS)攻击。
  3. 实验表明,时间序列预测模型容易受到MIA攻击,尤其是在用户级别,且脆弱性随预测范围增加和训练数据减少而增强。

📝 摘要(中文)

成员推理攻击(MIAs)旨在确定特定数据是否被用于训练模型。虽然在分类模型上已经进行了广泛研究,但它们对时间序列预测的影响仍然很大程度上未被探索。我们通过引入两种新的攻击来解决这一差距:(i)将多元LiRA(一种最初为分类模型开发的最新MIA)改编为时间序列预测设置,以及(ii)一种名为深度时间序列(DTS)攻击的新型端到端学习方法。我们针对来自分类设置的其他领先攻击的改编版本对这些方法进行基准测试。我们在TUH-EEG和ELD数据集上的真实设置中评估所有攻击,目标是两种强大的预测架构,LSTM和最先进的N-HiTS,在记录和用户级别的威胁模型下。我们的结果表明,预测模型容易受到攻击,用户级别的攻击通常可以实现完美的检测。所提出的方法在多种设置中实现了最强的性能,为时间序列预测中的隐私风险评估建立了新的基线。此外,脆弱性随着更长的预测范围和更小的训练人群而增加,这与大型语言模型中观察到的趋势相呼应。

🔬 方法详解

问题定义:论文旨在解决时间序列预测模型中存在的隐私泄露问题,具体而言,就是如何判断一条特定的时间序列数据是否被用于训练某个预测模型。现有方法主要集中在分类模型上,无法直接应用于时间序列预测,并且缺乏针对时间序列数据特点的攻击手段。

核心思路:论文的核心思路是设计专门针对时间序列预测模型的成员推理攻击方法。一方面,通过适配现有的先进MIA方法(LiRA),使其能够处理时间序列数据;另一方面,提出一种全新的端到端学习方法(DTS),直接从时间序列数据中学习攻击策略。

技术框架:论文提出了两种攻击方法。第一种是适配的多元LiRA攻击,它首先训练一个影子模型,然后利用影子模型的输出和目标模型的输出,训练一个判别器来判断目标数据是否属于训练集。第二种是DTS攻击,它是一个端到端的神经网络,直接从时间序列数据中学习攻击策略,无需训练影子模型。整体流程包括数据预处理、模型训练(预测模型和攻击模型)和攻击评估三个阶段。

关键创新:论文的关键创新在于提出了DTS攻击,这是一种端到端的MIA方法,可以直接从时间序列数据中学习攻击策略,避免了手动设计特征和训练影子模型的复杂过程。此外,论文还对多元LiRA攻击进行了适配,使其能够处理时间序列数据,并取得了良好的攻击效果。

关键设计:DTS攻击采用深度神经网络结构,具体结构未知(论文未明确说明)。损失函数的设计目标是最大化攻击的成功率,即正确判断目标数据是否属于训练集。多元LiRA攻击的关键在于选择合适的特征,例如预测误差、置信度等,以及设计合适的判别器。

📊 实验亮点

实验结果表明,所提出的DTS攻击和适配的多元LiRA攻击在TUH-EEG和ELD数据集上均取得了良好的攻击效果,尤其是在用户级别攻击中,DTS攻击甚至可以达到完美的检测精度。此外,实验还发现,预测范围越长、训练数据越少,模型越容易受到攻击,这与大型语言模型中的观察结果一致。这些结果表明,时间序列预测模型面临着严重的隐私风险,需要采取有效的保护措施。

🎯 应用场景

该研究成果可应用于评估和增强时间序列预测模型的隐私保护能力,尤其是在医疗健康、金融等敏感数据领域。通过识别模型存在的隐私漏洞,可以采取相应的防御措施,例如差分隐私、对抗训练等,从而保护用户数据的隐私安全。此外,该研究还可以促进时间序列隐私保护技术的发展,为构建安全可靠的时间序列预测系统提供理论指导。

📄 摘要(原文)

Membership inference attacks (MIAs) aim to determine whether specific data were used to train a model. While extensively studied on classification models, their impact on time series forecasting remains largely unexplored. We address this gap by introducing two new attacks: (i) an adaptation of multivariate LiRA, a state-of-the-art MIA originally developed for classification models, to the time-series forecasting setting, and (ii) a novel end-to-end learning approach called Deep Time Series (DTS) attack. We benchmark these methods against adapted versions of other leading attacks from the classification setting. We evaluate all attacks in realistic settings on the TUH-EEG and ELD datasets, targeting two strong forecasting architectures, LSTM and the state-of-the-art N-HiTS, under both record- and user-level threat models. Our results show that forecasting models are vulnerable, with user-level attacks often achieving perfect detection. The proposed methods achieve the strongest performance in several settings, establishing new baselines for privacy risk assessment in time series forecasting. Furthermore, vulnerability increases with longer prediction horizons and smaller training populations, echoing trends observed in large language models.