Task-Optimized Convolutional Recurrent Networks Align with Tactile Processing in the Rodent Brain
作者: Trinity Chung, Yuchen Shen, Nathan C. L. Kong, Aran Nayebi
分类: q-bio.NC, cs.AI, cs.LG, cs.RO
发布日期: 2025-05-23 (更新: 2025-10-13)
备注: 10 pages, 8 figures, 7 tables, NeurIPS 2025 Camera Ready Version (oral)
💡 一句话要点
提出任务优化卷积循环网络,模拟啮齿动物大脑触觉处理机制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 触觉感知 卷积循环神经网络 Encoder-Attender-Decoder 神经表征 自监督学习
📋 核心要点
- 触觉感知在神经科学和人工智能系统中,与视觉和语言等成熟模态相比,理解程度和有效性都较低,存在较大差距。
- 论文提出Encoder-Attender-Decoder (EAD)框架,利用任务优化的时间神经网络,探索触觉感知的建模方法,并着重研究ConvRNN编码器的性能。
- 实验表明,基于ConvRNN编码器的EAD模型能够更好地匹配啮齿动物体感皮层的神经表征,并在自监督学习中表现出与监督学习相似的性能。
📝 摘要(中文)
本文提出了一种新颖的Encoder-Attender-Decoder (EAD)框架,旨在系统地探索任务优化的时间神经网络,该网络在来自定制的啮齿动物胡须阵列模拟器的真实触觉输入序列上进行训练。研究发现,卷积循环神经网络(ConvRNNs)作为编码器,在触觉分类方面优于纯前馈和状态空间架构。重要的是,这些基于ConvRNN编码器的EAD模型实现了与啮齿动物体感皮层紧密匹配的神经表征,饱和了可解释的神经变异性,并揭示了监督分类性能和神经对齐之间的清晰线性关系。此外,通过触觉特定增强训练的对比自监督ConvRNN编码器EAD模型,与监督神经拟合相匹配,充当了与动物行为相关的、无标签的代理。
🔬 方法详解
问题定义:现有方法在触觉感知建模方面存在不足,尤其是在处理来自胡须阵列的复杂时间序列数据时。传统的模型可能无法有效捕捉触觉信息的时序依赖性和空间相关性,导致分类性能不佳,并且难以解释其与生物神经系统的关联。
核心思路:论文的核心思路是利用卷积循环神经网络(ConvRNN)作为编码器,结合注意力机制和解码器,构建一个任务优化的EAD框架。ConvRNN能够有效地提取触觉输入序列中的时空特征,注意力机制则可以关注重要的时间步,从而提高分类性能和神经表征的匹配度。
技术框架:EAD框架包含三个主要模块:编码器(Encoder)、注意力模块(Attender)和解码器(Decoder)。编码器负责将原始触觉输入序列转换为高维特征表示;注意力模块根据编码器的输出,动态地选择重要的时间步;解码器则利用注意力模块的输出进行分类或重建。整个框架通过端到端的方式进行训练,以优化分类性能和神经表征的匹配度。
关键创新:最重要的技术创新点在于使用ConvRNN作为编码器,并结合注意力机制。ConvRNN能够有效地捕捉触觉信息的时空依赖性,而注意力机制则可以关注重要的时间步,从而提高分类性能和神经表征的匹配度。此外,论文还提出了触觉特定的数据增强方法,用于自监督学习。
关键设计:ConvRNN的具体结构包括卷积层和循环层,卷积层用于提取空间特征,循环层用于捕捉时间依赖性。注意力模块采用标准的注意力机制,根据编码器的输出计算注意力权重。解码器采用全连接层进行分类。损失函数包括分类损失和神经表征匹配损失。自监督学习采用对比学习损失,通过触觉特定的数据增强方法生成正负样本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于ConvRNN编码器的EAD模型在触觉分类任务中取得了优异的性能,并且能够更好地匹配啮齿动物体感皮层的神经表征。该模型饱和了可解释的神经变异性,并揭示了监督分类性能和神经对齐之间的清晰线性关系。此外,自监督学习方法在没有标签的情况下,也能达到与监督学习相似的神经拟合效果。
🎯 应用场景
该研究成果可应用于机器人触觉感知、假肢控制、以及神经科学研究等领域。通过模拟生物触觉处理机制,可以提高机器人对环境的感知能力,使其能够在复杂环境中进行操作。此外,该研究还可以帮助神经科学家更好地理解大脑如何处理触觉信息,为开发新的神经接口和治疗方法提供思路。
📄 摘要(原文)
Tactile sensing remains far less understood in neuroscience and less effective in artificial systems compared to more mature modalities such as vision and language. We bridge these gaps by introducing a novel Encoder-Attender-Decoder (EAD) framework to systematically explore the space of task-optimized temporal neural networks trained on realistic tactile input sequences from a customized rodent whisker-array simulator. We identify convolutional recurrent neural networks (ConvRNNs) as superior encoders to purely feedforward and state-space architectures for tactile categorization. Crucially, these ConvRNN-encoder-based EAD models achieve neural representations closely matching rodent somatosensory cortex, saturating the explainable neural variability and revealing a clear linear relationship between supervised categorization performance and neural alignment. Furthermore, contrastive self-supervised ConvRNN-encoder-based EADs, trained with tactile-specific augmentations, match supervised neural fits, serving as an ethologically-relevant, label-free proxy. For neuroscience, our findings highlight nonlinear recurrent processing as important for general-purpose tactile representations in somatosensory cortex, providing the first quantitative characterization of the underlying inductive biases in this system. For embodied AI, our results emphasize the importance of recurrent EAD architectures to handle realistic tactile inputs, along with tailored self-supervised learning methods for achieving robust tactile perception with the same type of sensors animals use to sense in unstructured environments.