SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction
作者: Shester Gueuwou, Xiaodan Du, Greg Shakhnarovich, Karen Livescu, Alexander H. Liu
分类: cs.CL, cs.CV
发布日期: 2024-11-25 (更新: 2025-07-02)
备注: Fixed Figure 1. ACL 2025
💡 一句话要点
SHuBERT:通过多流聚类预测实现手语自监督表征学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 手语识别 自监督学习 多模态学习 表征学习 Transformer BERT 手语翻译
📋 核心要点
- 传统手语处理依赖于特定任务模型,缺乏跨任务的迁移学习能力,限制了模型的泛化性。
- SHuBERT通过自监督学习,从大量无标签手语视频中学习上下文表征,有效捕捉手语的时序关系。
- 实验表明,SHuBERT在多个手语处理任务上取得了显著的性能提升,超越了现有技术水平。
📝 摘要(中文)
本文提出了一种名为SHuBERT(Sign Hidden-Unit BERT)的自监督上下文表征模型,用于手语处理。该模型从大约1000小时的美式手语视频中学习,旨在解决传统手语处理依赖于特定任务模型,以及现有预训练方法无法充分利用无标签数据和忽略手语时序关系的问题。SHuBERT通过将掩码token预测目标应用于多流视觉手语输入,学习预测对应于聚类的手、面部和身体姿势流的多个目标。实验结果表明,SHuBERT在包括手语翻译、孤立手语识别和手指拼写检测等多个任务上取得了最先进的性能。
🔬 方法详解
问题定义:现有手语处理方法主要面临两个挑战:一是依赖于特定任务的有监督模型,难以进行跨任务迁移学习;二是现有的预训练方法要么是有监督的,无法利用大量的无标签数据,要么是上下文无关的,忽略了手语中重要的时序关系。
核心思路:SHuBERT的核心思路是利用自监督学习,从未标注的手语视频中学习到具有上下文信息的表征。通过预测被掩盖的多流(手、面部、身体姿势)视觉输入,模型能够学习到手语的时序依赖关系和不同模态之间的关联。
技术框架:SHuBERT的整体框架基于BERT模型,并针对手语数据的特点进行了改进。主要流程包括:1) 从手语视频中提取多流视觉特征(手、面部、身体姿势);2) 对提取的特征进行聚类,得到离散的token表示;3) 随机掩盖一部分token;4) 使用Transformer网络预测被掩盖的token。
关键创新:SHuBERT的关键创新在于:1) 采用了自监督学习的方式,可以利用大量的无标签手语数据;2) 引入了多流输入,可以同时学习手、面部和身体姿势的信息;3) 通过聚类将连续的视觉特征转换为离散的token,从而可以使用Transformer模型进行建模。
关键设计:SHuBERT的关键设计包括:1) 使用K-means算法对每个模态的视觉特征进行聚类,得到离散的token表示;2) 采用masked token prediction作为自监督学习的目标函数;3) 使用Transformer网络作为encoder,学习上下文表征;4) 损失函数为交叉熵损失,用于预测被掩盖的token。
🖼️ 关键图片
📊 实验亮点
SHuBERT在多个手语处理任务上取得了state-of-the-art的性能。例如,在手语翻译任务中,SHuBERT相比于之前的最佳模型取得了显著的提升。在孤立手语识别和手指拼写检测任务中,SHuBERT也表现出了优越的性能,证明了其有效性和泛化能力。
🎯 应用场景
SHuBERT在手语翻译、孤立手语识别和手指拼写检测等领域具有广泛的应用前景。该模型可以作为手语处理系统的基础模块,提升系统的性能和鲁棒性。此外,SHuBERT还可以用于手语教学、手语辅助交流等场景,帮助听障人士更好地融入社会。
📄 摘要(原文)
Sign language processing has traditionally relied on task-specific models, limiting the potential for transfer learning across tasks. Pre-training methods for sign language have typically focused on either supervised pre-training, which cannot take advantage of unlabeled data, or context-independent (frame or video segment) representations, which ignore the effects of relationships across time in sign language. We introduce SHuBERT (Sign Hidden-Unit BERT), a self-supervised contextual representation model learned from approximately 1,000 hours of American Sign Language video. SHuBERT adapts masked token prediction objectives to multi-stream visual sign language input, learning to predict multiple targets corresponding to clustered hand, face, and body pose streams. SHuBERT achieves state-of-the-art performance across multiple tasks including sign language translation, isolated sign language recognition, and fingerspelling detection.