Dynamical modeling of nonlinear latent factors in multiscale neural activity with real-time inference
作者: Eray Erturk, Maryam M. Shanechi
分类: cs.LG, cs.AI, q-bio.NC
发布日期: 2025-12-13
备注: Published at the 39th Annual Conference on Neural Information Processing Systems 2025. Code is available at https://github.com/ShanechiLab/mrine
期刊: NeurIPS 2025
💡 一句话要点
提出一种多尺度神经活动非线性动态建模框架,用于实时推断目标变量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 神经活动建模 实时解码 动态系统 脑机接口
📋 核心要点
- 现有神经活动模型难以处理多模态数据中不同的时间尺度和缺失样本,限制了实时解码的准确性。
- 该框架通过多尺度编码器、动态骨干网络和模态特定解码器,实现跨模态信息的有效聚合和实时递归解码。
- 实验证明,该模型在多种数据集上优于现有线性及非线性模型,显著提升了实时目标解码的性能。
📝 摘要(中文)
本文提出了一种学习框架,用于从多个同步记录的神经时间序列模态(如离散的脉冲活动和连续的场电位)中实时解码目标变量。该框架能够非线性地聚合跨多种模态的信息,这些模态具有不同的时间尺度、概率分布,甚至可能存在缺失样本。该框架包含:1) 一个多尺度编码器,通过学习模态内动态来非线性地聚合信息,从而实时处理不同的时间尺度和缺失样本;2) 一个多尺度动态骨干网络,提取多模态时间动态并实现实时递归解码;3) 模态特定的解码器,用于处理不同模态之间的概率分布差异。在模拟和三个不同的多尺度脑数据集上,实验结果表明该模型能够聚合具有不同时间尺度、分布和缺失样本的模态信息,从而提高实时目标解码的性能,并且优于各种线性及非线性多模态基线模型。
🔬 方法详解
问题定义:现有的多模态神经活动非线性模型无法有效处理不同神经模态之间的时间尺度差异和缺失数据问题。这导致在实时解码目标变量时,无法充分利用多模态信息,降低了解码精度和鲁棒性。因此,需要一种能够有效融合多尺度、异构且包含缺失数据的神经活动模型,以提升实时解码性能。
核心思路:本文的核心思路是构建一个多尺度动态模型,该模型能够自适应地学习不同模态的动态特性,并有效地融合这些信息。通过引入多尺度编码器来处理不同时间尺度和缺失数据,并利用动态骨干网络提取多模态时间动态,最后使用模态特定的解码器来适应不同模态的概率分布。这种设计允许模型在实时环境中递归地解码目标变量。
技术框架:该框架主要包含三个模块:1) 多尺度编码器:用于处理不同时间尺度和缺失样本,通过学习模态内的动态特性,非线性地聚合信息。2) 多尺度动态骨干网络:提取多模态时间动态,并实现实时递归解码。3) 模态特定解码器:用于处理不同模态之间的概率分布差异。整体流程是,首先通过多尺度编码器对各个模态的数据进行处理,然后将编码后的信息输入到动态骨干网络中进行时间动态建模,最后通过模态特定的解码器输出目标变量的预测结果。
关键创新:该方法最重要的创新点在于其多尺度动态建模框架,能够同时处理多模态神经活动数据中存在的不同时间尺度、概率分布和缺失样本问题。与现有方法相比,该框架能够更有效地融合多模态信息,并实现更准确的实时解码。此外,该框架的设计允许进行实时递归解码,使其更适用于实际应用场景。
关键设计:多尺度编码器可能采用循环神经网络(RNN)或Transformer等结构来学习模态内动态,并使用masking技术处理缺失数据。动态骨干网络可能采用卡尔曼滤波或粒子滤波等方法进行时间动态建模和递归解码。模态特定解码器则根据不同模态的概率分布选择合适的损失函数,例如高斯分布对应均方误差损失,泊松分布对应泊松损失等。具体的参数设置和网络结构需要根据实际数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该模型在模拟数据和三个真实脑数据集上均取得了显著的性能提升。具体而言,该模型能够有效地聚合来自不同模态的信息,从而提高实时目标解码的准确性。与线性及非线性基线模型相比,该模型在解码精度上取得了明显的优势,尤其是在处理具有不同时间尺度和缺失样本的数据时,性能提升更为显著。这些结果验证了该模型在多模态神经活动建模和实时解码方面的有效性。
🎯 应用场景
该研究成果可广泛应用于神经科学、脑机接口等领域。例如,可以用于开发更精确的神经假肢控制系统,帮助瘫痪患者恢复运动能力;也可以用于实时监测和预测癫痫发作,提前进行干预;还可以应用于认知神经科学研究,帮助理解大脑不同区域之间的信息传递和整合机制。该研究的实际价值在于提升了多模态神经数据分析的效率和准确性,为相关领域的进一步发展奠定了基础。
📄 摘要(原文)
Real-time decoding of target variables from multiple simultaneously recorded neural time-series modalities, such as discrete spiking activity and continuous field potentials, is important across various neuroscience applications. However, a major challenge for doing so is that different neural modalities can have different timescales (i.e., sampling rates) and different probabilistic distributions, or can even be missing at some time-steps. Existing nonlinear models of multimodal neural activity do not address different timescales or missing samples across modalities. Further, some of these models do not allow for real-time decoding. Here, we develop a learning framework that can enable real-time recursive decoding while nonlinearly aggregating information across multiple modalities with different timescales and distributions and with missing samples. This framework consists of 1) a multiscale encoder that nonlinearly aggregates information after learning within-modality dynamics to handle different timescales and missing samples in real time, 2) a multiscale dynamical backbone that extracts multimodal temporal dynamics and enables real-time recursive decoding, and 3) modality-specific decoders to account for different probabilistic distributions across modalities. In both simulations and three distinct multiscale brain datasets, we show that our model can aggregate information across modalities with different timescales and distributions and missing samples to improve real-time target decoding. Further, our method outperforms various linear and nonlinear multimodal benchmarks in doing so.