Speech-Guided Multimodal Learning for Vocal Tract Segmentation in Real-Time MRI
作者: Daiqi Liu, Lukas Mulzer, Md Hasan, Nyvenn de Castro, Fangxu Xing, Xingjian Kang, Chengze Ye, Siyuan Mei, Yipeng Sun, Tomás Arias-Vergara, Jana Hutter, Jonghye Woo, Andreas Maier, Paula Andrea Pérez-Toro
分类: cs.CV
发布日期: 2026-05-18
备注: under review
💡 一句话要点
提出基于语音引导的多模态学习以解决实时MRI声道分割问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 实时MRI 声道分割 多模态学习 音位表示 跨模态对比
📋 核心要点
- 现有方法在实时MRI声道分割中面临低对比度和快速运动等挑战,且未能有效利用同步的声学信号。
- 本文提出的三阶段框架通过音位表示生成空间边界框先验,并在推理时仅依赖rtMRI图像,提升了分割精度。
- 在多个数据集上的实验结果显示,所提方法在性能上超越了现有的单模态和多模态方法,验证了多模态监督的有效性。
📝 摘要(中文)
实时MRI(rtMRI)中声道发音器的分割是一项具有挑战性的动态图像分割问题,主要特征为低对比度、快速运动和有限的空间分辨率。尽管rtMRI采集可以提供同步的声学信号,但现有方法往往忽略这些信息,少数结合音频的多模态方法在音频不可用时无法部署。本文提出了一种三阶段框架,在训练过程中利用声学和音位监督,而在推理时仅需rtMRI图像:音位表示被转换为发音器定位的空间边界框先验,视觉和声学编码器通过双层跨模态对比预训练进行对齐,学习的表示通过跨注意力解码器融合,有效地将多模态知识转移到单模态推理管道中。在75-Speaker~Annot-16和USC-TIMIT数据集上的评估表明,我们的方法优于现有的单模态和多模态方法,证明了多模态监督在精确和临床可部署的声道分割中的可转移性优势。
🔬 方法详解
问题定义:论文要解决实时MRI中声道发音器的分割问题,现有方法在处理低对比度和快速运动时效果不佳,且未能充分利用声学信号。
核心思路:论文的核心解决思路是通过三阶段框架,在训练中结合声学和音位信息,而在推理时仅依赖rtMRI图像,从而实现高效的声道分割。
技术框架:整体架构包括三个主要阶段:首先将音位表示转换为发音器定位的空间边界框先验;其次,通过双层跨模态对比预训练对视觉和声学编码器进行对齐;最后,使用跨注意力解码器融合学习的表示。
关键创新:最重要的技术创新点在于将多模态知识有效转移到单模态推理中,解决了现有方法在音频不可用时的局限性。
关键设计:在模型设计中,采用了特定的损失函数以优化跨模态对齐,网络结构中包含了视觉和声学编码器,以及跨注意力机制以增强信息融合能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提方法在75-Speaker~Annot-16和USC-TIMIT数据集上显著优于现有的单模态和多模态方法,具体性能提升幅度达到XX%(具体数据待补充),验证了多模态监督的有效性和可转移性。
🎯 应用场景
该研究的潜在应用领域包括临床医学中的语音治疗、语言障碍诊断以及声道运动分析等。通过提高声道分割的精度,能够为相关领域提供更为可靠的工具,促进个性化医疗的发展,未来可能在实时语音监测和分析中发挥重要作用。
📄 摘要(原文)
Segmenting vocal tract articulators in real-time MRI (rtMRI) is a challenging dynamic image segmentation problem characterized by low contrast, rapid motion, and limited spatial resolution. However, while rtMRI acquisitions may provide synchronized acoustic signals, existing methods discard this information, and the few multimodal approaches that incorporate audio cannot be deployed when audio is unavailable. We propose a three-stage framework that leverages acoustic and phonological supervision during training while requiring only the rtMRI image at inference: phonological representations are converted into spatial bounding-box priors for articulator localization, visual and acoustic encoders are aligned via dual-level cross-modal contrastive pretraining, and the learned representations are fused through a cross-attention decoder, effectively transferring multimodal knowledge into a single-modality inference pipeline. Evaluated on 75-Speaker~Annot-16 and USC-TIMIT datasets, our method outperforms existing unimodal and multimodal methods, demonstrating that multimodal supervision provides transferable benefits for precise and clinically deployable vocal tract segmentation.