Decoding Predictive Inference in Visual Language Processing via Spatiotemporal Neural Coherence

作者: Sean C. Borneman, Julia Krebs, Ronnie B. Wilbur, Evie A. Malaia

分类: q-bio.NC, cs.CL

发布日期: 2025-12-24

备注: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Foundation Models for the Brain and Body

💡 一句话要点

提出基于时空神经相干性的视觉语言处理预测推理解码框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言处理 神经相干性 脑电图 预测推理 光流 聋人语言 时空表示

📋 核心要点

人类语言处理依赖于大脑的预测推理能力，现有方法难以有效解码动态视觉语言刺激下的神经反应。
该研究利用神经信号与光流运动特征的相干性，构建时空表示，解码预测神经动力学，从而理解大脑的语言处理机制。
实验结果表明，左半球和额叶的低频相干性是语言理解的关键，且神经特征与年龄相关，验证了该方法有效性。

📝 摘要（中文）

本文提出了一种机器学习框架，用于解码聋人对动态视觉语言刺激的神经（脑电图）反应。通过神经信号与光流导出的运动特征之间的相干性，构建了预测神经动力学的时空表示。利用基于熵的特征选择，识别出特定频率的神经特征，这些特征能够区分可解释的语言输入和语言中断（时间反转）的刺激。结果表明，分布式的左半球和额叶低频相干性是语言理解的关键特征，经验依赖的神经特征与年龄相关。这项工作展示了一种新颖的多模态方法，用于探究大脑中经验驱动的生成式感知模型。

🔬 方法详解

问题定义：论文旨在解决如何解码聋人在处理动态视觉语言（例如手语）时的大脑神经活动，特别是预测推理过程。现有方法可能无法充分利用动态视觉信息和神经信号之间的关系，或者难以区分有意义的语言输入和无意义的输入。

核心思路：核心思路是利用神经信号（EEG）与视觉刺激中的运动特征（光流）之间的相干性，构建时空表示。这种相干性反映了大脑对视觉语言的预测和整合过程。通过分析不同频率的神经信号，并结合熵值进行特征选择，可以识别出与语言理解相关的关键神经特征。

技术框架：整体框架包括以下几个主要步骤：1) 收集聋人观看动态视觉语言刺激时的脑电图（EEG）数据；2) 从视觉刺激中提取光流特征，捕捉运动信息；3) 计算EEG信号与光流特征之间的相干性，得到时空神经相干性表示；4) 使用基于熵的特征选择方法，筛选出区分可解释语言输入和时间反转刺激的关键神经特征；5) 分析这些特征与语言理解和年龄等因素的关系。

关键创新：关键创新在于将神经相干性分析与动态视觉语言处理相结合，提出了一种新的多模态方法来研究大脑中的预测推理过程。通过分析EEG信号与光流特征之间的时空关系，能够更深入地了解大脑如何预测和整合视觉语言信息。此外，使用基于熵的特征选择方法，可以有效地识别出与语言理解相关的关键神经特征。

关键设计：论文中可能涉及的关键设计细节包括：1) EEG信号的预处理方法，例如滤波、降噪等；2) 光流特征的提取方法，例如使用Horn-Schunck或Farnebäck算法；3) 相干性计算的具体公式和参数设置；4) 基于熵的特征选择方法的具体实现，例如使用互信息或条件熵；5) 用于区分可解释语言输入和时间反转刺激的分类器类型和训练方法。

🖼️ 关键图片

📊 实验亮点

该研究通过分析聋人观看动态视觉语言刺激时的脑电图数据，揭示了左半球和额叶低频相干性在语言理解中的关键作用。实验结果表明，该方法能够有效区分可解释的语言输入和时间反转的刺激，并发现经验依赖的神经特征与年龄相关。这些发现为理解大脑如何处理动态视觉语言信息提供了新的见解。

🎯 应用场景

该研究成果可应用于开发辅助聋人理解语言的神经接口设备，例如通过解码脑电信号来增强手语翻译的准确性。此外，该方法还可用于研究其他类型的多模态语言处理，例如语音和视觉信息的整合，以及开发更自然的人机交互系统。未来，该研究可能促进对大脑语言处理机制的深入理解，并为认知障碍的诊断和治疗提供新的思路。

📄 摘要（原文）

Human language processing relies on the brain's capacity for predictive inference. We present a machine learning framework for decoding neural (EEG) responses to dynamic visual language stimuli in Deaf signers. Using coherence between neural signals and optical flow-derived motion features, we construct spatiotemporal representations of predictive neural dynamics. Through entropy-based feature selection, we identify frequency-specific neural signatures that differentiate interpretable linguistic input from linguistically disrupted (time-reversed) stimuli. Our results reveal distributed left-hemispheric and frontal low-frequency coherence as key features in language comprehension, with experience-dependent neural signatures correlating with age. This work demonstrates a novel multimodal approach for probing experience-driven generative models of perception in the brain.

Decoding Predictive Inference in Visual Language Processing via Spatiotemporal Neural Coherence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理