Spontaneous Spatial Cognition Emerges during Egocentric Video Viewing through Non-invasive BCI

📄 arXiv: 2507.12417v1 📥 PDF

作者: Weichen Dai, Yuxuan Huang, Li Zhu, Dongjun Liu, Yu Zhang, Qibin Zhao, Andrzej Cichocki, Fabio Babiloni, Ke Li, Jianyu Qiu, Gangyong Jia, Wanzeng Kong, Qing Wu

分类: q-bio.NC, cs.CV, eess.SP

发布日期: 2025-07-16


💡 一句话要点

通过非侵入式BCI解码自发空间认知,揭示人脑空间映射机制

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 空间认知 脑机接口 脑电图 自我中心视频 神经动态 解码技术 被动体验

📋 核心要点

  1. 现有方法对空间认知的理解主要集中在海马体神经元,缺乏对被动体验下大规模神经动态的研究。
  2. 论文提出利用非侵入式脑机接口(BCI)解码被动观看自我中心视频时的6D姿态,探索空间认知的自动构建机制。
  3. 研究结果表明,空间一致的视觉输入能够有效提升解码性能,且解码结果与参与者的空间参与感高度一致。

📝 摘要(中文)

人类具备卓越的空间认知能力,能够在新环境中进行自我定位。尽管海马体神经元与位置和方向的编码已有充分研究,但在自然被动体验下支持空间表征的大规模神经动态仍不清楚。本文首次展示了基于脑电图(EEG)的非侵入式脑机接口(BCI)能够解码在被动观看自我中心视频时自发的、细粒度的6D姿态,包括三维位置和方向。研究发现,空间一致的视觉输入能够可靠地引发可解码的空间表征,并与参与者的主观空间参与感一致。解码性能在以每帧100毫秒的速率呈现视觉输入时进一步提高,表明与内在神经时间动态的对齐。这些发现挑战了传统的主动与被动空间认知之间的界限,提供了对自发构建自我中心空间地图的非侵入式观察。

🔬 方法详解

问题定义:本文旨在解决在被动观看自我中心视频时,如何有效解码人脑的空间认知动态。现有方法主要依赖海马体神经元的研究,缺乏对大规模神经动态的理解,尤其是在自然场景下的表现。

核心思路:论文的核心思路是利用非侵入式脑机接口(BCI)技术,通过脑电图(EEG)解码自发的6D姿态,探索人脑在被动状态下如何构建空间表征。这样的设计旨在揭示空间认知的自动化过程。

技术框架:整体架构包括数据采集、信号处理、特征提取和解码模型四个主要模块。首先,通过EEG设备采集参与者在观看视频时的脑电信号;然后进行信号预处理和特征提取;接着,利用神经解码模型进行姿态解码。

关键创新:最重要的技术创新在于首次展示了在被动观看条件下,EEG能够有效解码空间认知的6D姿态。这一发现挑战了传统对主动与被动认知的界限,表明空间系统的自发性。

关键设计:在实验中,视觉输入以每帧100毫秒的速率呈现,优化了与神经时间动态的对齐。通过梯度反向传播方法,识别出不同EEG通道对位置和方向特定成分的贡献,揭示了分布式但互补的神经编码机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在被动观看自我中心视频时,EEG解码的空间姿态与参与者的主观空间参与感高度一致。解码性能在以100毫秒的帧率呈现视觉输入时显著提高,表明与内在神经动态的良好对齐。这一发现为理解人脑空间认知提供了新的视角。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、增强现实和人机交互等,能够为空间认知训练、导航系统和智能机器人等提供新的思路和技术支持。未来,这一研究可能推动脑机接口技术在日常生活中的广泛应用,提升人类与环境的互动能力。

📄 摘要(原文)

Humans possess a remarkable capacity for spatial cognition, allowing for self-localization even in novel or unfamiliar environments. While hippocampal neurons encoding position and orientation are well documented, the large-scale neural dynamics supporting spatial representation, particularly during naturalistic, passive experience, remain poorly understood. Here, we demonstrate for the first time that non-invasive brain-computer interfaces (BCIs) based on electroencephalography (EEG) can decode spontaneous, fine-grained egocentric 6D pose, comprising three-dimensional position and orientation, during passive viewing of egocentric video. Despite EEG's limited spatial resolution and high signal noise, we find that spatially coherent visual input (i.e., continuous and structured motion) reliably evokes decodable spatial representations, aligning with participants' subjective sense of spatial engagement. Decoding performance further improves when visual input is presented at a frame rate of 100 ms per image, suggesting alignment with intrinsic neural temporal dynamics. Using gradient-based backpropagation through a neural decoding model, we identify distinct EEG channels contributing to position -- and orientation specific -- components, revealing a distributed yet complementary neural encoding scheme. These findings indicate that the brain's spatial systems operate spontaneously and continuously, even under passive conditions, challenging traditional distinctions between active and passive spatial cognition. Our results offer a non-invasive window into the automatic construction of egocentric spatial maps and advance our understanding of how the human mind transforms everyday sensory experience into structured internal representations.