Global-Local Distillation Network-Based Audio-Visual Speaker Tracking with Incomplete Modalities

作者: Yidi Li, Yihan Li, Yixin Guo, Bin Ren, Zhenhuan Xu, Hao Guo, Hong Liu, Nicu Sebe

分类: cs.CV, cs.SD, eess.AS

发布日期: 2024-08-26 (更新: 2025-02-17)

备注: We request to withdraw our paper from arXiv due to unresolved author disagreements about the data interpretation and study conclusions. To maintain scientific integrity, we believe withdrawing the paper is necessary. We regret any confusion caused

💡 一句话要点

提出基于全局-局部蒸馏网络的音视频说话人跟踪方法，解决模态缺失下的鲁棒跟踪问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 说话人跟踪 音视频融合 知识蒸馏 模态缺失 生成对抗网络 注意力机制 全局-局部特征

📋 核心要点

现有说话人跟踪方法在模态缺失（如遮挡、噪声）时性能显著下降，尤其当多模态数据同时缺失时，鲁棒性不足。
提出全局-局部蒸馏跟踪器（GLDTracker），利用教师-学生网络，将全局信息提炼到处理局部信息的学生网络中，增强其适应性。
实验表明，GLDTracker在AV16.3数据集上优于现有方法，在标准和模态缺失场景下均表现出色，验证了其鲁棒性。

📝 摘要（中文）

在说话人跟踪研究中，整合和补充多模态数据是提高跟踪系统准确性和鲁棒性的关键策略。然而，由于遮挡、声学噪声和传感器故障导致的噪声观测，模态不完整情况下的跟踪仍然是一个具有挑战性的问题。特别是当多个模态中存在缺失数据时，现有的多模态融合方法的性能往往会下降。为此，我们提出了一种基于全局-局部蒸馏的跟踪器（GLDTracker），用于鲁棒的音视频说话人跟踪。GLDTracker由教师-学生蒸馏模型驱动，能够灵活地融合来自每个模态的不完整信息。教师网络处理由相机和麦克风阵列捕获的全局信号，而学生网络处理受视觉遮挡和音频通道缺失影响的局部信息。通过将知识从教师传递给学生，学生网络可以更好地适应具有不完整观测的复杂动态场景。在学生网络中，构建了一个基于生成对抗网络的全局特征重建模块，用于从具有缺失局部信息的特征嵌入中重建全局特征。此外，引入了一种多模态多级融合注意力机制，以整合不完整特征和重建特征，从而利用音视频和全局-局部特征的互补性和一致性。在AV16.3数据集上的实验结果表明，所提出的GLDTracker优于现有的最先进的音视频跟踪器，并在标准和不完整模态数据集上都取得了领先的性能，突出了其在复杂条件下的优越性和鲁棒性。代码和模型将可用。

🔬 方法详解

问题定义：论文旨在解决音视频说话人跟踪中，由于视觉遮挡、音频噪声或传感器故障导致的多模态数据不完整问题。现有方法在处理此类问题时，多模态融合效果不佳，跟踪精度显著下降，难以适应复杂动态场景。

核心思路：论文的核心思路是利用知识蒸馏，将从全局视角获取的完整信息（教师网络）传递给处理局部不完整信息的学生网络。通过这种方式，学生网络可以学习到全局信息，从而弥补局部信息缺失带来的影响，提高跟踪的鲁棒性。

技术框架：GLDTracker包含教师网络和学生网络。教师网络接收来自相机和麦克风阵列的全局音视频信号，提取全局特征。学生网络接收局部音视频信号，这些信号可能受到遮挡或噪声的影响。学生网络包含一个全局特征重建模块，该模块使用生成对抗网络（GAN）从不完整的局部特征中重建全局特征。最后，一个多模态多级融合注意力机制用于整合不完整特征和重建特征。

关键创新：论文的关键创新在于提出了全局-局部蒸馏框架，以及在学生网络中引入了基于GAN的全局特征重建模块。这种设计使得学生网络能够利用全局信息来弥补局部信息的缺失，从而提高了跟踪的鲁棒性。此外，多模态多级融合注意力机制能够有效地整合不同模态和不同层级的特征。

关键设计：全局特征重建模块使用GAN来学习全局特征的分布，并从不完整的局部特征中生成全局特征。多模态多级融合注意力机制通过学习不同模态和不同层级特征的重要性权重，自适应地融合这些特征。损失函数包括跟踪损失、重建损失和对抗损失，用于训练整个网络。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GLDTracker在AV16.3数据集上显著优于现有方法。在标准数据集上，GLDTracker取得了领先的性能。在模态缺失数据集上，GLDTracker的性能提升更为明显，验证了其在复杂条件下的鲁棒性。具体性能数据在论文中给出，证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、视频会议等领域。在这些场景中，说话人跟踪的准确性和鲁棒性至关重要。该方法能够有效应对遮挡、噪声等干扰，提高跟踪系统的可靠性，从而提升用户体验和系统性能。未来，该技术还可扩展到其他多模态感知任务中。

📄 摘要（原文）

In speaker tracking research, integrating and complementing multi-modal data is a crucial strategy for improving the accuracy and robustness of tracking systems. However, tracking with incomplete modalities remains a challenging issue due to noisy observations caused by occlusion, acoustic noise, and sensor failures. Especially when there is missing data in multiple modalities, the performance of existing multi-modal fusion methods tends to decrease. To this end, we propose a Global-Local Distillation-based Tracker (GLDTracker) for robust audio-visual speaker tracking. GLDTracker is driven by a teacher-student distillation model, enabling the flexible fusion of incomplete information from each modality. The teacher network processes global signals captured by camera and microphone arrays, and the student network handles local information subject to visual occlusion and missing audio channels. By transferring knowledge from teacher to student, the student network can better adapt to complex dynamic scenes with incomplete observations. In the student network, a global feature reconstruction module based on the generative adversarial network is constructed to reconstruct global features from feature embedding with missing local information. Furthermore, a multi-modal multi-level fusion attention is introduced to integrate the incomplete feature and the reconstructed feature, leveraging the complementarity and consistency of audio-visual and global-local features. Experimental results on the AV16.3 dataset demonstrate that the proposed GLDTracker outperforms existing state-of-the-art audio-visual trackers and achieves leading performance on both standard and incomplete modalities datasets, highlighting its superiority and robustness in complex conditions. The code and models will be available.

Global-Local Distillation Network-Based Audio-Visual Speaker Tracking with Incomplete Modalities

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理