CanonSLR: Canonical-View Guided Multi-View Continuous Sign Language Recognition

📄 arXiv: 2604.18184v1 📥 PDF

作者: Xu Wang, Shengeng Tang, Wan Jiang, Yaxiong Wang, Lechao Cheng, Richang Hong

分类: cs.CV

发布日期: 2026-04-20


💡 一句话要点

提出CanonSLR,解决多视角连续手语识别中的视角鲁棒性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 连续手语识别 多视角学习 师生学习 软目标蒸馏 时间关系建模 视角鲁棒性 规范视角

📋 核心要点

  1. 现有连续手语识别方法在单视角下表现良好,但在真实场景中对视角变化的鲁棒性不足。
  2. CanonSLR采用正面视角引导的师生学习,并结合序列级软目标蒸馏,减少跨视角语义差异。
  3. 通过时间运动关系增强,显式建模运动感知的时间关系,增强动态表示并抑制视角干扰。

📝 摘要(中文)

连续手语识别(CSLR)近年来取得了显著进展;然而,大多数现有方法都是在单视角设置下开发的,因此在实际场景中对视角变化的鲁棒性不足。为了解决这个限制,我们提出了CanonSLR,一个用于多视角CSLR的规范视角引导框架。具体来说,我们引入了一种以正面视角为锚点的师生学习策略,其中在正面视角数据上训练的教师网络为在所有视角上训练的学生网络提供规范的时间监督。为了进一步减少跨视角语义差异,我们提出了序列级软目标蒸馏,将结构化的时间知识从正面视角转移到非正面样本,从而减轻由遮挡和投影变化引起的词汇边界模糊和类别混淆。此外,我们引入了时间运动关系增强,以显式地建模高级视觉特征中感知运动的时间关系,在抑制视角敏感的外观干扰的同时,加强稳定的动态表示。为了支持多视角CSLR研究,我们进一步开发了一种通用的多视角手语数据构建流程,将原始单视角RGB视频转换为语义一致、时间连贯且视角可控的多视角手语视频。基于此流程,我们将PHOENIX-2014T和CSL-Daily扩展为两个七视角基准,即PT14-MV和CSL-MV,为多视角CSLR提供了一个新的实验基础。在PT14-MV和CSL-MV上的大量实验表明,CanonSLR在多视角设置下始终优于现有方法,并表现出更强的鲁棒性,尤其是在具有挑战性的非正面视角上。

🔬 方法详解

问题定义:现有连续手语识别方法主要在单视角下进行研究,在实际应用中,由于视角变化导致的遮挡、形变等问题,模型的识别性能会显著下降。因此,如何提高模型在多视角下的鲁棒性是亟待解决的问题。

核心思路:CanonSLR的核心思路是利用正面视角的信息作为“规范视角”,通过师生学习和软目标蒸馏,将正面视角的知识迁移到其他视角,从而提高模型在不同视角下的识别能力。同时,通过时间运动关系增强,显式地建模手语动作的时序动态信息,增强模型的鲁棒性。

技术框架:CanonSLR的整体框架包含以下几个主要模块:1) 特征提取模块:用于提取输入视频帧的视觉特征。2) 教师网络:在正面视角数据上训练,用于生成规范的时间监督信号。3) 学生网络:在所有视角的数据上训练,通过学习教师网络的输出,提高在不同视角下的识别能力。4) 序列级软目标蒸馏模块:将教师网络生成的软目标(概率分布)作为学生网络的学习目标,从而将正面视角的知识迁移到其他视角。5) 时间运动关系增强模块:显式地建模手语动作的时序动态信息,增强模型的鲁棒性。

关键创新:CanonSLR的关键创新在于:1) 提出了正面视角引导的师生学习策略,利用正面视角的知识来提高模型在其他视角下的识别能力。2) 提出了序列级软目标蒸馏,将结构化的时间知识从正面视角迁移到非正面视角,从而减轻了词汇边界模糊和类别混淆。3) 提出了时间运动关系增强,显式地建模手语动作的时序动态信息,增强模型的鲁棒性。

关键设计:在师生学习中,教师网络在正面视角数据上进行训练,学生网络在所有视角的数据上进行训练。序列级软目标蒸馏使用KL散度作为损失函数,用于衡量教师网络和学生网络输出概率分布之间的差异。时间运动关系增强模块使用Transformer结构来建模时间关系,并引入了运动信息作为输入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CanonSLR在PT14-MV和CSL-MV两个多视角手语数据集上进行了评估,实验结果表明,CanonSLR在多视角设置下始终优于现有方法,尤其是在具有挑战性的非正面视角上。具体性能数据需要在论文中查找。

🎯 应用场景

CanonSLR可应用于智能手语翻译系统、手语教学、聋哑人辅助设备等领域。通过提高多视角下手语识别的准确性和鲁棒性,可以使这些系统在更复杂的真实场景中应用,帮助聋哑人更好地与健听人交流,促进社会融合。

📄 摘要(原文)

Continuous Sign Language Recognition (CSLR) has achieved remarkable progress in recent years; however, most existing methods are developed under single-view settings and thus remain insufficiently robust to viewpoint variations in real-world scenarios. To address this limitation, we propose CanonSLR, a canonical-view guided framework for multi-view CSLR. Specifically, we introduce a frontal-view-anchored teacher-student learning strategy, in which a teacher network trained on frontal-view data provides canonical temporal supervision for a student network trained on all viewpoints. To further reduce cross-view semantic discrepancy, we propose Sequence-Level Soft-Target Distillation, which transfers structured temporal knowledge from the frontal view to non-frontal samples, thereby alleviating gloss boundary ambiguity and category confusion caused by occlusion and projection variation. In addition, we introduce Temporal Motion Relational Enhancement to explicitly model motion-aware temporal relations in high-level visual features, strengthening stable dynamic representations while suppressing viewpoint-sensitive appearance disturbances. To support multi-view CSLR research, we further develop a universal multi-view sign language data construction pipeline that transforms original single-view RGB videos into semantically consistent, temporally coherent, and viewpoint-controllable multi-view sign language videos. Based on this pipeline, we extend PHOENIX-2014T and CSL-Daily into two seven-view benchmarks, namely PT14-MV and CSL-MV, providing a new experimental foundation for multi-view CSLR. Extensive experiments on PT14-MV and CSL-MV demonstrate that CanonSLR consistently outperforms existing approaches under multi-view settings and exhibits stronger robustness, especially on challenging non-frontal views.