IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments

作者: Dinanath Padhya, Sajen Maharjan, Binita Adhikari, Ishwor Raj Pokharel

分类: cs.SD, cs.LG

发布日期: 2026-05-14 (更新: 2026-05-15)

备注: 8 pages

💡 一句话要点

IsoNet：面向复杂声学环境的空间感知音视频目标语音提取

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音提取 多模态融合 音视频处理 U-Net 空间感知

📋 核心要点

单声道模型缺乏空间信息，传统波束形成器在小孔径麦克风阵列下性能下降，导致紧凑设备上的目标语音提取困难。
IsoNet结合音频空间线索、视觉人脸信息，利用U-Net进行掩码估计，实现用户可选的目标语音提取。
在困难测试集上，IsoNet显著优于传统波束形成器，证明了多模态条件学习在低信噪比环境下的有效性。

📝 摘要（中文）

针对紧凑型设备在复杂声学环境中目标语音提取的难题，提出IsoNet系统。该系统利用紧凑的四麦克风阵列，结合复数多通道短时傅里叶变换特征、GCC-PHAT空间线索、人脸条件视觉嵌入以及辅助的到达方向监督信息，构建了一个基于U-Net的掩码估计网络。通过在25000个模拟VoxCeleb混合语音上进行课程学习训练，逐步提升信噪比难度。在-1到10 dB信噪比的困难测试集上，IsoNet-CL1实现了9.31 dB的SI-SDR，相比混合语音提升了4.85 dB，PESQ为2.13，STOI为0.84。与Oracle延迟求和以及MVDR波束形成器相比，IsoNet分别提升了4.82 dB和6.08 dB SI-SDRi，表明所提出的多模态条件学习方法能够有效解决传统空间滤波失效的问题。消融实验表明，视觉条件、GCC-PHAT特征以及扩展延迟仓编码均能带来一致的增益。结果表明，在受控模拟环境下，该方法为紧凑型阵列、人脸可选语音提取提供了一个基线，并确定了实际部署的剩余障碍，特别是相位重建、多干扰源混合以及模拟到真实的迁移。

🔬 方法详解

问题定义：论文旨在解决在复杂声学环境中，使用紧凑型麦克风阵列进行目标语音提取的问题。现有方法，如单声道神经网络模型，缺乏空间信息；而传统的波束形成器，如延迟求和和MVDR，在麦克风阵列孔径较小的情况下，分辨率会显著下降，导致性能不佳。

核心思路：论文的核心思路是利用多模态信息融合，特别是结合音频的空间线索（GCC-PHAT）和视觉的人脸信息，来提升目标语音提取的性能。通过视觉信息，可以确定目标说话人的位置，从而为音频处理提供更强的先验知识。这种多模态融合的策略能够克服传统方法在低信噪比和小孔径麦克风阵列下的局限性。

技术框架：IsoNet的整体架构是一个基于U-Net的掩码估计网络。输入包括复数多通道STFT特征、GCC-PHAT空间线索和人脸条件视觉嵌入。网络输出一个掩码，用于从混合语音中提取目标语音。此外，还使用了辅助的到达方向（DOA）监督信息来进一步提升性能。训练过程采用了课程学习策略，逐步增加训练数据的信噪比难度。

关键创新：IsoNet的关键创新在于多模态信息的有效融合，特别是将视觉信息以条件嵌入的方式融入到音频处理流程中。此外，利用GCC-PHAT特征来增强空间感知能力，并结合辅助的DOA监督信息，进一步提升了模型的性能。这种多模态融合的策略使得IsoNet能够在传统方法失效的场景下实现有效的语音提取。

关键设计：IsoNet使用了U-Net作为其核心网络结构，这使得模型能够有效地捕捉不同尺度的特征信息。GCC-PHAT特征被用于提供空间线索，人脸视觉嵌入则通过一个单独的网络提取，并作为条件信息输入到U-Net中。损失函数包括掩码估计损失和DOA监督损失。课程学习策略通过逐步增加训练数据的信噪比难度，来提升模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

IsoNet在困难测试集（-1到10 dB SNR）上实现了9.31 dB的SI-SDR，相比混合语音提升了4.85 dB。与Oracle延迟求和以及MVDR波束形成器相比，IsoNet分别提升了4.82 dB和6.08 dB SI-SDRi。消融实验表明，视觉条件、GCC-PHAT特征以及扩展延迟仓编码均能带来一致的增益，验证了各个模块的有效性。

🎯 应用场景

IsoNet在智能家居、可穿戴设备、车载系统等领域具有广泛的应用前景。它可以用于在嘈杂环境中提取用户的语音指令，提升语音助手的性能。此外，该技术还可以应用于视频会议系统，以提高语音清晰度和降低背景噪声。未来，通过优化模型和解决模拟到真实迁移的问题，IsoNet有望在实际场景中得到广泛应用。

📄 摘要（原文）

Target speech extraction remains difficult for compact devices because monaural neural models lack spatial evidence and classical beamformers lose resolving power when the microphone aperture is only a few centimetres. We present IsoNet, a user-selectable audio-visual target speech extraction system for a compact 4-microphone array. IsoNet combines complex multi-channel STFT features, GCC-PHAT spatial cues, face-conditioned visual embeddings, and auxiliary direction-of-arrival supervision inside a U-Net mask estimation network. Three curriculum variants were trained on 25,000 simulated VoxCeleb mixtures with progressively difficult SNR regimes. On a hard test set spanning -1 to 10 dB SNR, IsoNet-CL1 achieves 9.31 dB SI-SDR, a 4.85 dB improvement over the mixture, with PESQ 2.13 and STOI 0.84. Oracle delay-and-sum and MVDR beamformers degrade the same mixtures by 4.82 dB and 6.08 dB SI-SDRi, respectively, showing that the proposed learned multimodal conditioning solves a regime where conventional spatial filtering is ineffective. Ablation studies show consistent gains from visual conditioning, GCC-PHAT features, and extended delay-bin encoding. The results establish a compact-array, face-selectable speech extraction baseline under controlled simulation and identify the remaining barriers to real deployment, especially phase reconstruction, multi-interferer mixtures, and simulation-to-real transfer.

IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理