Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding

作者: Hamid Abdollahi, Amir Hossein Mansouri Majoumerd, Amir Hossein Bagheri Baboukani, Amir Abolfazl Suratgar, Mohammad Bagher Menhaj

分类: cs.CV

发布日期: 2025-07-25

💡 一句话要点

利用视听优势，探究自然场景下大脑多模态融合的神经编码机制。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 大脑编码 异分布泛化 视听信息 神经-AI模型

📋 核心要点

现有大脑编码模型在泛化到新环境时面临挑战，尤其是在异分布数据上表现不佳。
论文提出利用先进的视觉和听觉特征提取器构建大脑编码模型，并进行严格的同分布和异分布测试。
实验表明，线性模型在异分布数据上表现更稳健，且视听信息比语言信息对神经编码影响更大。

📝 摘要（中文）

预测大脑对自然、多模态刺激的反应是计算神经科学中的一个关键挑战。虽然编码模型变得越来越强大，但它们泛化到真正新颖环境的能力仍然是一个关键且经常未经检验的问题。本文利用最先进的视觉（X-CLIP）和听觉（Whisper）特征提取器开发了大脑编码模型，并在同分布（ID）和各种异分布（OOD）数据上严格评估了它们。结果揭示了模型复杂性和泛化之间的根本权衡：更高容量的基于注意力的模型在ID数据上表现出色，但更简单的线性模型更稳健，在OOD集上优于竞争基线18%。有趣的是，语言特征并没有提高预测准确性，这表明对于熟悉的语言，神经编码可能主要由连续的视觉和听觉流主导，而不是冗余的文本信息。在空间上，该方法在听觉皮层中显示出显著的性能提升，突出了高保真语音表示的优势。总的来说，研究结果表明，严格的OOD测试对于构建稳健的神经-AI模型至关重要，并提供了关于模型架构、刺激特征和感觉层次结构如何塑造我们丰富、多模态世界的神经编码的细致见解。

🔬 方法详解

问题定义：论文旨在解决大脑如何对自然、多模态刺激进行编码的问题，尤其关注现有编码模型在新环境下的泛化能力不足的痛点。现有方法通常在同分布数据上进行评估，忽略了模型在真实世界中遇到的异分布数据的挑战。此外，对于多模态信息的融合方式，特别是视觉、听觉和语言信息在大脑编码中的相对重要性，缺乏深入的理解。

核心思路：论文的核心思路是利用最先进的视觉和听觉特征提取器（X-CLIP和Whisper）来构建大脑编码模型，并通过在同分布和异分布数据上进行严格的评估，来研究模型复杂性与泛化能力之间的权衡。同时，通过比较不同模态特征的预测性能，揭示视听信息和语言信息在大脑编码中的相对重要性。这种设计旨在更真实地模拟大脑处理自然刺激的过程，并评估模型在更具挑战性的场景下的表现。

技术框架：整体框架包括以下几个主要步骤：1) 使用自然、多模态刺激（例如电影片段）作为输入；2) 使用X-CLIP提取视觉特征，使用Whisper提取听觉特征；3) 将提取的特征输入到大脑编码模型中，模型可以是线性模型或基于注意力的模型；4) 使用大脑活动数据（例如fMRI）作为目标，训练编码模型；5) 在同分布和异分布数据上评估模型的预测性能；6) 分析不同模态特征的预测性能，以及模型在不同脑区的表现。

关键创新：论文的关键创新在于：1) 强调了在异分布数据上评估大脑编码模型的重要性，并提出了相应的评估方法；2) 揭示了模型复杂性与泛化能力之间的权衡，即更复杂的模型在同分布数据上表现更好，但更简单的模型在异分布数据上更稳健；3) 发现视听信息比语言信息对大脑编码的影响更大，这挑战了以往认为语言在高级认知功能中起主导作用的观点。

关键设计：论文中关键的设计包括：1) 使用X-CLIP和Whisper作为特征提取器，以获得高质量的视觉和听觉表示；2) 比较了线性模型和基于注意力的模型，以研究模型复杂性对泛化能力的影响；3) 使用了多种异分布数据集，以更全面地评估模型的泛化能力；4) 通过分析不同脑区的预测性能，研究了不同模态信息在大脑中的空间分布。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在异分布数据上，线性模型比基于注意力的模型表现更优，提升幅度达18%。此外，研究发现语言特征对预测准确性的提升有限，而视听特征对听觉皮层的预测性能有显著提升，表明视听信息在自然场景下的大脑编码中占据主导地位。

🎯 应用场景

该研究成果可应用于开发更鲁棒、更具泛化能力的人工智能系统，尤其是在需要处理复杂、多模态信息的场景中，例如自动驾驶、人机交互和医疗诊断。此外，该研究有助于深入理解大脑如何整合不同模态的信息，为神经科学研究提供新的思路和方法。

📄 摘要（原文）

Predicting brain activity in response to naturalistic, multimodal stimuli is a key challenge in computational neuroscience. While encoding models are becoming more powerful, their ability to generalize to truly novel contexts remains a critical, often untested, question. In this work, we developed brain encoding models using state-of-the-art visual (X-CLIP) and auditory (Whisper) feature extractors and rigorously evaluated them on both in-distribution (ID) and diverse out-of-distribution (OOD) data. Our results reveal a fundamental trade-off between model complexity and generalization: a higher-capacity attention-based model excelled on ID data, but a simpler linear model was more robust, outperforming a competitive baseline by 18\% on the OOD set. Intriguingly, we found that linguistic features did not improve predictive accuracy, suggesting that for familiar languages, neural encoding may be dominated by the continuous visual and auditory streams over redundant textual information. Spatially, our approach showed marked performance gains in the auditory cortex, underscoring the benefit of high-fidelity speech representations. Collectively, our findings demonstrate that rigorous OOD testing is essential for building robust neuro-AI models and provides nuanced insights into how model architecture, stimulus characteristics, and sensory hierarchies shape the neural encoding of our rich, multimodal world.

Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理