Data-Efficient American Sign Language Recognition via Few-Shot Prototypical Networks
作者: Meher Md Saad
分类: cs.CV
发布日期: 2025-12-11
💡 一句话要点
提出基于Few-Shot原型网络的美国手语识别方法,解决数据稀缺问题
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 手语识别 Few-Shot学习 原型网络 时空图卷积网络 多尺度时间聚合 数据稀缺 零样本学习
📋 核心要点
- 现有手语识别方法在数据稀缺和长尾分布下表现不佳,难以泛化到罕见类别。
- 提出基于Few-Shot原型网络的框架,学习语义度量空间,通过与动态类原型的距离进行分类。
- 实验表明,该方法在WLASL数据集上优于标准分类基线,并在SignASL数据集上具有良好的零样本泛化能力。
📝 摘要(中文)
孤立手语识别(ISLR)对于弥合聋人和重听人(DHH)社区与听力世界之间的沟通鸿沟至关重要。然而,强大的ISLR受到数据稀缺和手语词汇长尾分布的根本限制,为数千个独特手语收集足够的例子成本高昂。标准分类方法在这些条件下表现不佳,经常过度拟合常见类别,而无法推广到罕见类别。为了解决这个瓶颈,我们提出了一种适用于基于骨骼编码器的Few-Shot原型网络框架。与学习固定决策边界的传统分类器不同,我们的方法利用情景训练来学习语义度量空间,其中手语根据其与动态类原型的接近程度进行分类。我们集成了时空图卷积网络(ST-GCN)和一个新颖的多尺度时间聚合(MSTA)模块,以捕获快速和流畅的运动动态。在WLASL数据集上的实验结果表明了这种度量学习范式的优越性:我们的模型在测试集上实现了43.75%的Top-1准确率和77.10%的Top-5准确率。至关重要的是,这比共享相同骨干架构的标准分类基线高出13%以上,证明了原型训练策略在标准分类失败的数据稀缺情况下有效胜出。此外,该模型表现出强大的零样本泛化能力,在未经微调的情况下,在未见过的SignASL数据集上实现了近30%的准确率,为在有限数据下识别大量手语词汇提供了一条可扩展的途径。
🔬 方法详解
问题定义:论文旨在解决美国手语识别中数据稀缺和长尾分布带来的挑战。传统分类方法在训练数据不足的情况下容易过拟合,无法有效识别罕见手语。
核心思路:论文的核心思路是利用Few-Shot学习中的原型网络,通过学习一个语义度量空间,将手语样本映射到该空间中,并根据其与各类原型(prototype)的距离进行分类。这种方法能够更好地泛化到未见过的手语类别,尤其是在数据量有限的情况下。
技术框架:整体框架包括以下几个主要模块:1) 基于骨骼的编码器:使用时空图卷积网络(ST-GCN)提取手语视频中的骨骼特征。2) 多尺度时间聚合(MSTA)模块:用于捕获手语动作中的快速和流畅的运动动态。3) 原型网络:利用编码器提取的特征,计算每个类别的原型,并根据样本与原型的距离进行分类。训练过程采用情景训练(episodic training),模拟Few-Shot学习场景。
关键创新:论文的关键创新在于将Few-Shot学习中的原型网络应用于手语识别,并结合ST-GCN和MSTA模块,有效地提取了手语视频中的时空特征。与传统分类方法相比,该方法能够更好地适应数据稀缺和长尾分布的情况,具有更强的泛化能力。
关键设计:MSTA模块通过不同时间尺度的卷积操作来捕获手语动作中的动态信息。损失函数采用交叉熵损失,用于衡量样本与原型之间的距离。情景训练中,每个episode随机选择一部分类别和样本进行训练,模拟Few-Shot学习场景。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
该模型在WLASL数据集上实现了43.75%的Top-1准确率和77.10%的Top-5准确率,比共享相同骨干架构的标准分类基线高出13%以上。此外,该模型在未经微调的情况下,在未见过的SignASL数据集上实现了近30%的准确率,展示了强大的零样本泛化能力。
🎯 应用场景
该研究成果可应用于手语翻译、手语教学、人机交互等领域,有助于弥合聋人和重听人与健听人之间的沟通障碍。未来,该技术有望应用于更广泛的手语识别任务,例如连续手语识别,并促进手语的普及和应用。
📄 摘要(原文)
Isolated Sign Language Recognition (ISLR) is critical for bridging the communication gap between the Deaf and Hard-of-Hearing (DHH) community and the hearing world. However, robust ISLR is fundamentally constrained by data scarcity and the long-tail distribution of sign vocabulary, where gathering sufficient examples for thousands of unique signs is prohibitively expensive. Standard classification approaches struggle under these conditions, often overfitting to frequent classes while failing to generalize to rare ones. To address this bottleneck, we propose a Few-Shot Prototypical Network framework adapted for a skeleton based encoder. Unlike traditional classifiers that learn fixed decision boundaries, our approach utilizes episodic training to learn a semantic metric space where signs are classified based on their proximity to dynamic class prototypes. We integrate a Spatiotemporal Graph Convolutional Network (ST-GCN) with a novel Multi-Scale Temporal Aggregation (MSTA) module to capture both rapid and fluid motion dynamics. Experimental results on the WLASL dataset demonstrate the superiority of this metric learning paradigm: our model achieves 43.75% Top-1 and 77.10% Top-5 accuracy on the test set. Crucially, this outperforms a standard classification baseline sharing the identical backbone architecture by over 13%, proving that the prototypical training strategy effectively outperforms in a data scarce situation where standard classification fails. Furthermore, the model exhibits strong zero-shot generalization, achieving nearly 30% accuracy on the unseen SignASL dataset without fine-tuning, offering a scalable pathway for recognizing extensive sign vocabularies with limited data.