Do Factual Recall Mechanisms Carry over from Text to Speech in Multimodal Language Models?

📄 arXiv: 2605.22170v1 📥 PDF

作者: Luca Modica, Filip Landin, Mehrdad Farahani, Livia Qian, Gabriel Skantze, Richard Johansson

分类: cs.CL

发布日期: 2026-05-21

备注: In *SEM 2026, the 15th Joint Conference on Lexical and Computational Semantics


💡 一句话要点

研究多模态语言模型中事实性知识从文本到语音的迁移机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 语音语言模型 事实性知识 因果中介分析 知识迁移 语音识别 自然语言处理

📋 核心要点

  1. 现有语音语言模型在处理语音和文本时,其内部事实知识的存储和检索机制的差异尚不明确,阻碍了模型性能的进一步提升。
  2. 该研究采用因果中介分析方法,深入探究多模态模型在文本和语音两种模态下,事实性知识的编码、存储和检索方式。
  3. 实验结果表明,事实性知识在文本和语音模态之间的迁移是不完全的,揭示了两种模态在知识处理机制上的差异。

📝 摘要(中文)

近年来,涌现出多种联合表示语音和文本的语音语言模型(SLM)。一个关键问题是,当模型在两种模态中运行时,其内部机制的相似性和差异性如何。本文重点研究这些系统如何编码、存储和检索事实性知识,这些方面之前已在纯文本模型中进行过研究。为了探究SLM中事实关联存储和回忆的机制,我们利用了因果中介分析,这是一种先前应用于基于文本模型的技术。使用SpiritLM(一种集成离散语音token的多模态模型)的初步结果表明,文本到文本和语音到文本的结果之间存在差异,这表明事实回忆的新兴机制仅部分地从文本模态迁移到语音模态。这些结果加深了我们对SLM中内部机制如何编码事实关联的理解,同时为改进支持语音的AI系统贡献了见解。

🔬 方法详解

问题定义:本文旨在研究多模态语音语言模型(SLM)中,事实性知识的存储和回忆机制在文本和语音两种模态之间是否存在差异。现有研究主要集中在纯文本模型上,对于SLM中语音模态的知识处理机制了解不足,这限制了我们对多模态模型内部工作原理的理解,也阻碍了语音AI系统的进一步发展。

核心思路:该研究的核心思路是利用因果中介分析(Causal Mediation Analysis)这一工具,来量化和比较SLM在处理文本和语音时,内部神经元激活模式对事实性知识回忆的影响。通过分析不同模态下神经元激活模式的差异,揭示事实性知识在两种模态之间的迁移程度。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一个多模态语音语言模型(SpiritLM),该模型能够同时处理文本和语音输入;2) 构建包含事实性知识的数据集,例如“X的首都是Y”;3) 使用因果中介分析方法,分析模型在处理文本和语音输入时,特定神经元的激活模式对模型回忆事实性知识的影响;4) 比较文本和语音模态下的中介效应,从而判断事实性知识在两种模态之间的迁移程度。

关键创新:该研究的关键创新在于将因果中介分析方法应用于多模态语音语言模型,从而能够定量地分析事实性知识在文本和语音模态之间的迁移程度。这为理解多模态模型的内部工作机制提供了一种新的视角。

关键设计:研究中使用了SpiritLM模型,该模型集成了离散的语音token。因果中介分析的具体实施细节(例如,选择哪些神经元作为中介变量,如何定义因果关系)以及数据集的构建方式是影响实验结果的关键因素。具体的损失函数和网络结构沿用了SpiritLM的设置,没有进行修改。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用SpiritLM模型时,事实性知识从文本到语音的迁移是不完全的,文本到文本和语音到文本的结果之间存在差异。这表明,在多模态模型中,语音模态可能需要独立的知识表示和处理机制,不能完全依赖从文本模态迁移过来的知识。

🎯 应用场景

该研究的成果可以应用于改进语音助手、智能客服等语音AI系统。通过更好地理解和利用语音模态中的知识,可以提升这些系统在语音理解、知识问答等方面的性能。此外,该研究也为多模态学习领域提供了新的研究思路,有助于开发更强大的多模态人工智能系统。

📄 摘要(原文)

In recent years, several Speech Language Models (SLMs) that represent speech and written text jointly have been presented. The question then emerges about how model-internal mechanisms are similar and different when operating in the two modalities. We focus on how these systems encode, store, and retrieve factual knowledge, which has previously been investigated for text-only models. To investigate mechanisms behind the storage and recall of factual association in SLMs, we leverage Causal Mediation Analysis, a technique previously applied to text-based models. Initial results using SpiritLM, a multimodal model integrating discrete speech tokens reveal discrepancies between text-to-text and speech-to-text results, suggesting that the emergent mechanisms for factual recall are only partially carried over from the text to the speech modality. These results advance our understanding of how internal mechanisms encode factual associations in SLMs while contributing insights for improving speech-enabled AI systems.