Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading
作者: Eder del Blanco, David Gimeno-Gómez, Eva Navas, Carlos-D. Martínez-Hinarejos, Inma Hernáez
分类: eess.AS, cs.CL, cs.SD
发布日期: 2026-06-08
备注: 12 pages, 7 figures and 6 tables. Submitted to Transactions on Audio, Speech and Language Processing
💡 一句话要点
提出跨模态掩蔽以增强无声语音合成的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无声语音合成 跨模态掩蔽 表面肌电图 唇读 鲁棒性 多模态融合 语音恢复 辅助技术
📋 核心要点
- 现有的无声语音合成方法在模态降级和传感器失效时表现出较低的鲁棒性,限制了其实际应用。
- 本文提出了一种掩蔽多模态语音合成框架,通过训练中的模态掩蔽来整合sEMG和唇读信号。
- 实验结果显示,该方法在多说话者设置下,词错误率降低了最多14个百分点,且在低比特率条件下表现出更好的鲁棒性。
📝 摘要(中文)
无声语音接口(SSI)在恢复语音方面展现出良好的前景,尤其适用于声带功能受损或缺失的个体。尽管表面肌电图(sEMG)和基于视频的唇读提供了互补的发音信息,但其在连续语音合成中的整合仍未得到充分探索。现有的多模态方法在面对模态降级或传感器暂时失效时的鲁棒性不足,限制了其在实际场景中的应用。本文提出了一种掩蔽多模态语音合成框架,通过训练中的模态掩蔽共同利用sEMG和唇读信号。在多说话者设置下,该方法相比最强的单模态基线将词错误率降低了最多14个百分点。实验结果表明,掩蔽策略对性能提升和低比特率条件下的鲁棒性至关重要,并且在模态缺失条件下的泛化能力优于特定降级的数据增强。
🔬 方法详解
问题定义:本文旨在解决无声语音合成中模态降级和传感器失效导致的鲁棒性不足问题。现有方法在这些情况下的表现不佳,限制了其在真实场景中的应用。
核心思路:论文提出了一种掩蔽多模态语音合成框架,通过在训练过程中对sEMG和唇读信号进行模态掩蔽,增强模型对不同模态信息的利用和鲁棒性。
技术框架:整体架构包括数据采集模块(sEMG和视频信号)、模态掩蔽模块、语音合成模块和评估模块。训练过程中,通过掩蔽策略来增强模型对缺失模态的适应能力。
关键创新:最重要的技术创新在于引入了模态掩蔽策略,使得模型能够在模态缺失的情况下仍然保持较高的合成质量。这一方法与传统的单模态方法相比,显著提高了鲁棒性。
关键设计:在模型设计中,采用了特定的损失函数来平衡不同模态的贡献,并优化了网络结构以适应多模态输入的特性。具体参数设置和网络层次结构在实验部分进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的方法在多说话者设置下,词错误率降低了最多14个百分点,相较于最强的单模态基线表现出显著提升。此外,在低比特率条件下,该方法的鲁棒性也得到了有效验证,显示出更好的泛化能力。
🎯 应用场景
该研究的潜在应用领域包括辅助技术、无声语音合成设备和人机交互系统,尤其适用于声带功能受损的用户。通过提高无声语音合成的鲁棒性,该技术有望改善这些用户的沟通能力,提升生活质量。未来,该方法的进一步发展可能会扩展到其他模态融合的应用场景中。
📄 摘要(原文)
Speech restoration through silent speech interfaces (SSIs) has emerged as a promising assistive technology for individuals with impaired or absent laryngeal voice production. Among non-invasive SSI modalities, surface electromyography (sEMG) and video-based lipreading provide complementary articulatory information, yet their integration for continuous speech synthesis remains underexplored. Moreover, existing multimodal approaches rarely address robustness to modality degradation or temporary sensor failure, limiting their applicability in realistic scenarios. In this work, we propose a masked multimodal speech synthesis framework that jointly leverages sEMG and lipreading signals through modality masking during training. Under multispeaker settings, the proposed approach reduces word error rate by up to 14 absolute percentage points compared to the strongest unimodal baseline. Experimental results not only show that masking strategies are critical for these performance gains and robustness under low-bitrate conditions, but also that they generalize better than degradation-specific data augmentations in the presence of modality absence conditions. Phone-level analyses further reveal complementary contributions across modalities, with particularly strong benefits for vowels and for specific consonant groups. Overall, these findings demonstrate the effectiveness and robustness of masked multimodal integration for silent speech synthesis, although adaptation to laryngectomized speakers remains an open research challenge.