SpikeProphecy: A Large-Scale Benchmark for Autoregressive Neural Population Forecasting
作者: John R. Minnick, Jinghui Geng, Kamran Hussain, Jesus Gonzalez-Ferrer, Ash Robbins, Mohammed A. Mostajo-Radji, David Haussler, Jason K. Eshraghian, Mircea Teodorescu
分类: q-bio.NC, cs.LG
发布日期: 2026-05-13
备注: 26 pages, 4 figures, 12 tables; submitted to NeurIPS 2026 Datasets and Benchmarks Track; processed dataset at https://huggingface.co/datasets/mysteriousauthor/spikeprophecy-steinmetz (CC-BY-4.0); code at https://github.com/JohnMinnick/SpikeProphecy-A-Large-Scale-Benchmark-for-Autoregressive-Neural-Population-Forecasting
💡 一句话要点
SpikeProphecy:用于自回归神经群体预测的大规模基准测试
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 神经群体模型 脉冲预测 基准测试 时间序列预测 电生理记录 指标分解 自回归模型
📋 核心要点
- 现有神经群体模型评估方法过于简化,单一相关系数掩盖了预测中的时间、空间等结构信息。
- 论文提出SpikeProphecy基准测试,并设计了一种群体指标分解方法,将性能分解为时间保真度、空间准确性和幅度对齐。
- 实验表明,该分解方法揭示了不同脑区预测能力差异,且该差异在多种模型和统计校正后依然显著。
📝 摘要(中文)
神经群体模型旨在预测多个同步记录神经元的联合放电活动。通常,这些模型仅通过预测和实际脉冲计数之间的单个聚合Pearson相关系数$r$进行评估,这掩盖了关键的结构信息。我们认为,评估脉冲预测的方式与构建模型本身同等重要。因此,我们引入了SpikeProphecy,这是首个用于真实电生理记录上因果自回归脉冲计数预测的大规模基准测试。我们的核心贡献是一种群体指标分解方法,它将聚合性能分解为时间保真度、空间模式准确性和幅度不变对齐。这种分解揭示了底层数据的各个方面,而聚合标量会将其折叠在一起。我们将该协议应用于105个Neuropixels会话(Steinmetz 2019 + IBL Repeated Site;约89,800个神经元),并使用七种架构基线,涵盖四个结构族:四个SSM(三个对角和一个非对角)、一个Transformer、一个LSTM和一个脉冲神经网络。分解揭示了一个大脑区域可预测性排名,该排名在所有七个基线中均可重现,并且在对放电统计约束进行ANCOVA校正后仍然存在(区域$ΔR^2$高于放电统计协变量0.018)。它还揭示了一个亚泊松评估下限,其中严格的指标与规则脉冲序列的真实生物物理约束相结合,并且在泊松计数域中,ANN到SNN转移的KL-on-output-rates蒸馏产生了负面结果。
🔬 方法详解
问题定义:神经群体模型旨在预测多个神经元的放电活动,但现有评估方法仅使用单一的Pearson相关系数,无法充分反映预测的质量,忽略了时间、空间等关键结构信息。这使得模型难以针对性地改进,也难以比较不同模型的优劣。
核心思路:论文的核心思路是将聚合的性能指标分解为多个更细粒度的指标,分别衡量模型在时间保真度、空间模式准确性和幅度不变对齐方面的表现。通过这种分解,可以更全面地评估模型的预测能力,并揭示底层数据的特性。
技术框架:SpikeProphecy基准测试包含以下几个关键部分:1) 大规模数据集:包含105个Neuropixels会话,涉及约89,800个神经元。2) 评估指标分解:将聚合性能分解为时间保真度、空间模式准确性和幅度不变对齐三个指标。3) 多种基线模型:包括SSM、Transformer、LSTM和脉冲神经网络等。4) 统计分析:使用ANCOVA校正放电统计约束,以确保结果的可靠性。
关键创新:最重要的创新点在于提出了群体指标分解方法,该方法能够将聚合性能分解为多个细粒度的指标,从而更全面地评估神经群体模型的预测能力。与现有方法相比,该方法能够揭示底层数据的特性,并为模型改进提供更具体的指导。
关键设计:在评估指标分解方面,论文具体定义了时间保真度、空间模式准确性和幅度不变对齐的计算方法。在模型选择方面,论文选择了具有代表性的SSM、Transformer、LSTM和脉冲神经网络等模型,以覆盖不同的结构族。在统计分析方面,论文使用了ANCOVA校正放电统计约束,以确保结果的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SpikeProphecy基准测试能够揭示不同脑区预测能力的差异,并且该差异在多种模型和统计校正后依然显著(区域$ΔR^2$高于放电统计协变量0.018)。此外,实验还发现了一个亚泊松评估下限,表明存在生物物理约束限制了预测的准确性。同时,KL-on-output-rates蒸馏在ANN到SNN转移中表现不佳。
🎯 应用场景
该研究成果可应用于神经科学领域,用于评估和改进神经群体模型,从而更好地理解大脑的运作机制。此外,该基准测试和评估方法也可推广到其他时序预测任务中,例如金融预测、气象预测等,具有广泛的应用前景。
📄 摘要(原文)
Neural population models, which predict the joint firing of many simultaneously recorded neurons forward in time, are typically evaluated by a single aggregate Pearson correlation $r$ between predicted and actual spike counts, a number that masks critical structure. We argue that how we evaluate spike forecasting matters as much as what we build, and introduce SpikeProphecy, the first large-scale benchmark for causal, autoregressive spike-count forecasting on real electrophysiology recordings. Our core contribution is a population metric decomposition that separates aggregate performance into temporal fidelity, spatial pattern accuracy, and magnitude-invariant alignment. The decomposition surfaces aspects of the underlying data that an aggregate scalar collapses together. We apply the protocol to 105 Neuropixels sessions (Steinmetz 2019 + IBL Repeated Site; ~89,800 neurons) with seven architecture baselines spanning four structural families: four SSMs (three diagonal and one non-diagonal), a Transformer, an LSTM, and a spiking network. The decomposition surfaces a brain-region predictability ranking that reproduces across all seven baselines and survives ANCOVA correction for firing-statistics constraints (region $ΔR^2 = 0.018$ above the firing-statistics covariates). It also exposes a sub-Poisson evaluation floor where rigorous metrics combine with genuine biophysical constraints on regular spike trains, and yields a negative result on KL-on-output-rates distillation for ANN-to-SNN transfer in this Poisson count domain.