Cross-Modal Representational Knowledge Distillation for Enhanced Spike-Informed LFP Modeling
作者: Eray Erturk, Saba Hashemi, Maryam M. Shanechi
分类: cs.LG, cs.AI, q-bio.NC
发布日期: 2025-12-13
备注: Published at the 39th Annual Conference on Neural Information Processing Systems 2025. Code is available at https://github.com/ShanechiLab/CrossModalDistillation
期刊: NeurIPS 2025
💡 一句话要点
提出跨模态表征知识蒸馏方法,提升基于Spike信息的LFP建模性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 跨模态学习 知识蒸馏 局部场电位(LFP) Spike信号 Transformer模型
📋 核心要点
- LFP信号建模面临挑战,由于其聚集性和群体水平特性,直接建模预测下游任务性能较低。
- 提出跨模态知识蒸馏框架,将预训练Spike模型的高保真表征知识迁移到LFP模型。
- 实验结果表明,蒸馏后的LFP模型在无监督和监督设置下均优于基线模型,并具有良好的泛化能力。
📝 摘要(中文)
本文提出了一种跨模态知识蒸馏框架,旨在提升基于局部场电位(LFP)的神经建模性能。由于LFP信号的聚集性和群体水平特性,直接建模LFP面临挑战,导致下游任务(如运动行为预测)的性能较低。为了解决这个问题,该框架将预训练的多会话Spike Transformer模型中的高保真表征知识迁移到LFP Transformer模型。具体而言,首先使用会话特定的神经标记化策略,通过掩码自编码目标在多个记录会话上训练Spike教师模型。然后,对齐学生LFP模型的潜在表征与教师Spike模型的潜在表征。实验结果表明,经过蒸馏的LFP模型在完全无监督和监督设置下均优于单会话和多会话LFP基线,并且可以在没有额外蒸馏的情况下推广到其他会话,同时保持卓越的性能。这些发现表明,跨模态知识蒸馏是一种强大且可扩展的方法,可以利用高性能Spike模型来开发更准确的LFP模型。
🔬 方法详解
问题定义:论文旨在解决LFP(局部场电位)信号建模的难题。LFP信号虽然在神经科学研究和实际应用中具有优势(如长期稳定性、对电极退化的鲁棒性),但由于其内在的聚集性和群体水平特性,直接建模LFP信号并用于预测下游任务变量(如运动行为)的性能往往低于基于Spike信号的模型。现有方法难以充分利用LFP信号中蕴含的信息。
核心思路:论文的核心思路是通过跨模态知识蒸馏,将高性能的Spike模型中的知识迁移到LFP模型中。Spike模型能够更好地捕捉神经活动中的精细信息,将其表征能力传递给LFP模型,从而提升LFP模型的性能。这种方法利用了不同模态信号之间的互补性,克服了LFP信号建模的固有挑战。
技术框架:整体框架包含两个主要阶段:1) Spike教师模型训练阶段:使用多会话的Spike数据训练一个Transformer模型,采用掩码自编码(Masked Autoencoding)作为训练目标,并使用会话特定的神经标记化策略。2) LFP学生模型蒸馏阶段:训练一个LFP Transformer模型,并通过对齐其潜在表征与Spike教师模型的潜在表征,将Spike模型的知识迁移到LFP模型中。损失函数包含一个重构损失和一个知识蒸馏损失。
关键创新:论文的关键创新在于提出了跨模态的知识蒸馏方法,将Spike模型作为教师模型,LFP模型作为学生模型。这种方法充分利用了Spike模型在捕捉神经活动精细信息方面的优势,克服了LFP信号建模的固有挑战。与传统的单模态LFP建模方法相比,该方法能够显著提升LFP模型的性能。
关键设计:在Spike教师模型训练阶段,采用了会话特定的神经标记化策略,以适应不同会话之间的差异。在LFP学生模型蒸馏阶段,通过最小化LFP模型和Spike模型潜在表征之间的距离(例如,使用均方误差损失)来实现知识迁移。Transformer模型的具体结构和参数设置(例如,层数、注意力头数、隐藏层维度)需要根据具体的数据集和任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过跨模态知识蒸馏的LFP模型在多个数据集上均显著优于单会话和多会话LFP基线模型。在无监督设置下,蒸馏后的LFP模型在预测运动行为方面的性能提升了XX%。在监督设置下,性能提升了YY%。更重要的是,蒸馏后的LFP模型具有良好的泛化能力,可以在没有额外蒸馏的情况下推广到其他会话,并保持优越的性能。
🎯 应用场景
该研究成果可应用于脑机接口(BCI)系统、神经疾病诊断和治疗等领域。通过提升LFP信号的建模精度,可以更准确地解码大脑的意图,从而改善BCI系统的控制性能。此外,该方法还可以用于分析LFP信号中的异常模式,辅助神经疾病的早期诊断和个性化治疗方案的制定。未来,该方法有望推广到其他神经信号模态,构建更全面的神经建模框架。
📄 摘要(原文)
Local field potentials (LFPs) can be routinely recorded alongside spiking activity in intracortical neural experiments, measure a larger complementary spatiotemporal scale of brain activity for scientific inquiry, and can offer practical advantages over spikes, including greater long-term stability, robustness to electrode degradation, and lower power requirements. Despite these advantages, recent neural modeling frameworks have largely focused on spiking activity since LFP signals pose inherent modeling challenges due to their aggregate, population-level nature, often leading to lower predictive power for downstream task variables such as motor behavior. To address this challenge, we introduce a cross-modal knowledge distillation framework that transfers high-fidelity representational knowledge from pretrained multi-session spike transformer models to LFP transformer models. Specifically, we first train a teacher spike model across multiple recording sessions using a masked autoencoding objective with a session-specific neural tokenization strategy. We then align the latent representations of the student LFP model to those of the teacher spike model. Our results show that the Distilled LFP models consistently outperform single- and multi-session LFP baselines in both fully unsupervised and supervised settings, and can generalize to other sessions without additional distillation while maintaining superior performance. These findings demonstrate that cross-modal knowledge distillation is a powerful and scalable approach for leveraging high-performing spike models to develop more accurate LFP models.