Pretrained, Frozen, Still Leaking: Auditing Cross-Encoder Attribute Transfer in EEG Foundation Models

📄 arXiv: 2606.09189v1 📥 PDF

作者: Jianwei Tai

分类: cs.CR, cs.AI

发布日期: 2026-06-08


💡 一句话要点

提出跨编码器属性转移审计框架以解决EEG模型安全性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: EEG模型 属性转移 审计框架 跨编码器 隐私保护 深度学习安全 数据泄露

📋 核心要点

  1. 现有EEG模型审计方法通常只关注单一端点,无法全面评估模型的安全性和隐私泄露风险。
  2. 本文提出了一种联合审计框架,通过跨编码器转移审计来评估模型在多个端点下的属性泄露情况。
  3. 实验结果表明,AEDS在多个数据集上均表现出显著的正性,且传统防御方法在审计下效果不佳,显示了新方法的有效性。

📝 摘要(中文)

EEG基础模型的发布通常只针对单一端点进行审计,如原始重建、成员推断、身份链接或DP-SGD。本文对BIOT、LaBraM和EEGPT的已发布嵌入进行联合审计,发现单一端点审计无法完全消除光谱属性泄露。通过跨编码器转移审计,证明了从一个冻结编码器学习的属性解码器能够通过线性桥接转移到其他编码器的测试集,且在所有六个方向上,匹配控制的95%置信区间下限至少为0.081。我们提出了一种审计端点不一致评分(AEDS),并证明其正性条件,AEDS在所有八个匹配置信区间中均为正,p<0.001,显示出该审计框架的有效性。

🔬 方法详解

问题定义:本文旨在解决EEG基础模型在多种审计端点下的属性泄露问题。现有方法仅针对单一端点进行审计,无法全面评估模型的安全性。

核心思路:通过跨编码器转移审计,利用一个冻结编码器学习的属性解码器,评估其在其他编码器上的转移能力,从而实现对模型的全面审计。

技术框架:整体框架包括四个主要模块:1) 数据预处理与嵌入生成;2) 单一端点审计;3) 跨编码器转移审计;4) 审计端点不一致评分(AEDS)计算与校准。

关键创新:提出了跨编码器桥接定理,证明了共享属性坐标投影的编码器之间存在可被攻击的链式桥接,显著提高了审计的有效性。

关键设计:在AEDS的设计中,采用了自适应校准方法,确保在不同数据集和条件下均能保持正性,且在多个实验中均显示出p<0.001的显著性。实验中还使用了Wiener风格的噪声自适应攻击者和DP-SGD作为基线进行对比。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,AEDS在所有八个匹配置信区间中均为正,p<0.001,表明该审计框架的有效性。而传统的Carlini LiRA成员审计在AUC上仅达到0.50-0.70,显示出新方法的显著提升。

🎯 应用场景

该研究的审计框架可广泛应用于EEG模型的安全性评估,尤其是在医疗和心理健康领域,确保患者数据的隐私和安全。未来,该方法也可扩展到其他类型的深度学习模型,提升其安全性审计能力。

📄 摘要(原文)

EEG foundation-model releases are usually audited one endpoint at a time: raw-reconstruction, membership inference, identity linkage, or DP-SGD on the downstream head. We audit the same released embeddings under all four endpoints jointly, on BIOT, LaBraM, and EEGPT, and show that each single-endpoint audit clears releases that still leak spectral attributes. The decisive evidence is a cross-encoder transfer audit: a single ridge attribute decoder learned from one frozen encoder transfers, via a fitted linear bridge, to held-out-subject test splits of every other encoder, with subject-disjoint matched-control 95% CI lower bound at least 0.081 across all six BIOT/LaBraM/EEGPT directions. We prove a sufficient condition: two encoders sharing a nontrivial attribute-coordinate projector overlap beta admit a chained ridge bridge attacker with centered-gain lower bound sqrt(beta/(1+tau^2)) - eps_br - rho_0, and back-solve beta in [0.008, 0.198]. To turn the joint audit into a deployment-readable decision rule we introduce an audit-endpoint disagreement score (AEDS), prove sufficient conditions for its positivity, and bootstrap-calibrate it per cell; AEDS is positive in all eight matched-CI cells (BIOT/LaBraM/EEGPT on EEGMMI; LaBraM on Sleep-EDF, 54-channel LIMO, CHB-MIT pediatric scalp EEG) with p<0.001, while a head-level Carlini LiRA membership audit reaches AUC only 0.50-0.70. Standard defenses fail under audit: a Wiener-style noise-aware adaptive attacker, the LiRA audit, and DP-SGD at every utility-preserving epsilon in {4,8} leave the attribute channel essentially unchanged. The contribution is an audit framework that turns scattered single-endpoint defenses into a joint release decision, supported by a cross-encoder bridge theorem and adaptive-attacker, LiRA, and DP-SGD baselines; the audit licenses release-blocking, not raw-waveform exfiltration or held-out-subject identity recovery.