Purify-then-Align: Towards Robust Human Sensing under Modality Missing with Knowledge Distillation from Noisy Multimodal Teacher

📄 arXiv: 2604.05584v1 📥 PDF

作者: Pengcheng Weng, Yanyu Qian, Yangxin Xu, Fei Wang

分类: cs.CV

发布日期: 2026-04-07

备注: Accepted by CVPR 2026 Workshop On Any-to-Any Multimodal Learning


💡 一句话要点

提出PTA框架,通过提纯-对齐策略提升模态缺失下的人体感知鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 模态缺失 元学习 知识蒸馏 人体感知 表征对齐 鲁棒性 扩散模型

📋 核心要点

  1. 多模态人体感知面临模态缺失的挑战,现有方法难以有效应对异构数据间的表征差距和低质量模态的污染效应。
  2. PTA框架通过元学习动态降低噪声模态权重,提纯知识来源,再利用知识蒸馏对齐不同模态,提升单模态编码器性能。
  3. 在MM-Fi和XRF55数据集上的实验表明,PTA在模态缺失场景下实现了SOTA性能,显著提升了单模态模型的鲁棒性。

📝 摘要(中文)

本文提出了一种新颖的“提纯-对齐”(Purify-then-Align, PTA)框架,旨在解决多模态人体感知中模态缺失的挑战。该框架通过协同整合元学习和知识扩散来解决异构数据间的表征差距和低质量模态的污染效应这两个主要障碍。PTA首先采用元学习驱动的加权机制,动态地降低噪声模态的影响,从而提纯知识来源。然后,引入基于扩散的知识蒸馏范式,利用由提纯共识形成的富信息干净教师来优化每个学生模态的特征。这种“提纯-对齐”策略最终创建了具有强大能力的单模态编码器,使其具备跨模态知识。在大型MM-Fi和XRF55数据集上的综合实验表明,在显著的表征差距和污染效应下,PTA实现了最先进的性能,并显著提高了单模态模型在各种模态缺失场景中的鲁棒性。

🔬 方法详解

问题定义:多模态人体感知系统在实际应用中经常面临模态缺失的问题,例如传感器故障或遮挡。现有的方法通常难以有效处理异构数据之间的表征差距,并且容易受到低质量模态的污染,导致性能下降。因此,如何在模态缺失的情况下,提升人体感知的鲁棒性是一个关键问题。

核心思路:PTA框架的核心思路是“提纯-对齐”。首先,通过元学习的方式,动态地学习不同模态的权重,降低噪声模态的贡献,从而提纯知识来源。然后,利用知识蒸馏,将提纯后的知识从一个“干净”的教师模型传递给各个单模态的学生模型,从而对齐不同模态的表征。

技术框架:PTA框架主要包含两个阶段:提纯阶段和对齐阶段。在提纯阶段,使用一个元学习模块,根据每个模态的质量动态调整其权重。在对齐阶段,构建一个由提纯后的模态信息组成的教师模型,然后使用基于扩散的知识蒸馏方法,将教师模型的知识传递给各个单模态的学生模型。整体流程是先通过元学习降低噪声模态的影响,然后利用知识蒸馏提升单模态模型的性能。

关键创新:PTA框架的关键创新在于其“提纯-对齐”的策略,以及将元学习和知识蒸馏相结合的方式。传统的知识蒸馏方法通常假设教师模型是完美的,但在多模态学习中,教师模型可能受到噪声模态的影响。PTA通过元学习提纯知识来源,解决了这个问题。此外,使用基于扩散的知识蒸馏方法,可以更有效地将知识从教师模型传递给学生模型。

关键设计:在提纯阶段,使用一个元学习模块来学习每个模态的权重。该模块的目标是最小化验证集上的损失。在对齐阶段,使用基于扩散的知识蒸馏方法,将教师模型的特征传递给学生模型。损失函数包括一个重构损失和一个知识蒸馏损失。具体的网络结构和参数设置根据不同的数据集和任务进行调整。

🖼️ 关键图片

fig_0

📊 实验亮点

PTA框架在MM-Fi和XRF55数据集上取得了显著的性能提升。在MM-Fi数据集上,PTA在各种模态缺失场景下均优于现有方法,尤其是在严重缺失的情况下,性能提升更为明显。在XRF55数据集上,PTA也取得了SOTA结果,证明了其在不同数据集和任务上的泛化能力。实验结果表明,PTA能够有效应对模态缺失带来的挑战,提高多模态人体感知的鲁棒性。

🎯 应用场景

该研究成果可应用于智能家居、人机交互、自动驾驶等领域。在这些场景中,传感器数据可能存在缺失或噪声,PTA框架可以提高系统的鲁棒性和可靠性,从而提升用户体验和安全性。未来,该方法可以进一步扩展到其他多模态学习任务中,例如语音识别、图像分类等。

📄 摘要(原文)

Robust multimodal human sensing must overcome the critical challenge of missing modalities. Two principal barriers are the Representation Gap between heterogeneous data and the Contamination Effect from low-quality modalities. These barriers are causally linked, as the corruption introduced by contamination fundamentally impedes the reduction of representation disparities. In this paper, we propose PTA, a novel "Purify-then-Align" framework that solves this causal dependency through a synergistic integration of meta-learning and knowledge diffusion. To purify the knowledge source, PTA first employs a meta-learning-driven weighting mechanism that dynamically learns to down-weight the influence of noisy, low-contributing modalities. Subsequently, to align different modalities, PTA introduces a diffusion-based knowledge distillation paradigm in which an information-rich clean teacher, formed from this purified consensus, refines the features of each student modality. The ultimate payoff of this "Purify-then-Align" strategy is the creation of exceptionally powerful single-modality encoders imbued with cross-modal knowledge. Comprehensive experiments on the large-scale MM-Fi and XRF55 datasets, under pronounced Representation Gap and Contamination Effect, demonstrate that PTA achieves state-of-the-art performance and significantly improves the robustness of single-modality models in diverse missing-modality scenarios.