A multitask transformer to sign language translation using motion gesture primitives
作者: Fredy Alejandro Mendoza López, Jefferson Rodriguez, Fabio Martínez
分类: cs.CL
发布日期: 2025-03-25
备注: 32 pages, 10 tables, 13 figures
💡 一句话要点
提出基于运动手势原语的多任务Transformer用于手语翻译
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 手语翻译 多任务学习 Transformer 运动手势 gloss预测
📋 核心要点
- 现有手语翻译方法受限于视频背景冗余信息,且缺乏有效的中间文本表示,导致翻译性能受限。
- 提出一种多任务Transformer架构,利用gloss学习和密集运动表示,增强手势特征并对齐手势与文本。
- 实验结果表明,该方法在多个数据集上优于现有技术,证明了其有效性和竞争力。
📝 摘要(中文)
聋人群体缺乏有效的沟通是社会的主要障碍。手语作为聋人主要交流工具,缺乏正式的书面表达。当前的主要挑战是实现时空手语表示与自然文本语言之间的自动翻译。现有方法主要基于编码器-解码器架构,并集成注意力机制以增强非线性对应关系,但通常需要复杂的训练和架构设计才能获得合理预测,且受视频序列中冗余背景信息的限制。本文提出了一种多任务Transformer架构,包含gloss学习表示以实现更合适的翻译。该方法还包括增强手势并包含运动学信息的密集运动表示,从而避免背景信息并利用手语的几何特征,此外,还包含时空表示,以促进手势和gloss之间的对齐。在CoL-SLTD数据集上评估,该方法优于现有技术,在split 1上达到72.64%的BLEU-4,在split 2上达到14.64%的BLEU-4。此外,该策略在RWTH-PHOENIX-Weather 2014 T数据集上进行了验证,获得了具有竞争力的11.58%的BLEU-4。
🔬 方法详解
问题定义:手语翻译旨在将视频中的手语序列自动转换为自然语言文本。现有方法主要依赖于编码器-解码器结构,但存在以下痛点:一是视频背景信息冗余,干扰特征提取;二是缺乏有效的中间文本表示,难以建立手语与文本之间的对应关系;三是训练过程复杂,需要大量的计算资源和精细的调参。
核心思路:本文的核心思路是引入gloss作为中间文本表示,并利用密集运动表示增强手势特征,从而提高翻译的准确性和效率。通过gloss学习,模型可以更好地理解手语的语义信息。密集运动表示则可以有效去除背景干扰,突出手势的关键运动信息。
技术框架:该方法采用多任务Transformer架构,包含以下主要模块:1) 视频特征提取模块,用于提取视频序列的时空特征;2) 密集运动表示模块,用于增强手势特征并去除背景信息;3) gloss预测模块,用于预测手语对应的gloss序列;4) 翻译模块,用于将gloss序列翻译成自然语言文本。整个流程包括视频特征提取、运动特征增强、gloss预测和文本翻译四个阶段。
关键创新:该方法最重要的技术创新点在于:1) 引入gloss作为中间文本表示,有效缓解了手语与文本之间的语义鸿沟;2) 提出密集运动表示,增强了手势特征并抑制了背景干扰;3) 采用多任务学习框架,同时优化gloss预测和文本翻译两个任务,提高了模型的泛化能力。与现有方法相比,该方法更加注重手语的语义信息和运动特征,从而提高了翻译的准确性和鲁棒性。
关键设计:在密集运动表示模块中,使用了光流法提取视频序列的运动信息,并采用卷积神经网络对运动信息进行编码。在gloss预测模块中,使用了交叉熵损失函数来优化gloss预测结果。在翻译模块中,使用了Transformer模型,并采用束搜索算法生成最终的翻译结果。此外,还使用了数据增强技术,如随机裁剪和旋转,来提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
该方法在CoL-SLTD数据集上取得了显著的性能提升,在split 1上BLEU-4达到72.64%,在split 2上达到14.64%,超过了现有技术水平。此外,在RWTH-PHOENIX-Weather 2014 T数据集上也取得了具有竞争力的结果,BLEU-4达到11.58%。实验结果表明,该方法在手语翻译任务中具有良好的性能和泛化能力。
🎯 应用场景
该研究成果可应用于手语翻译软件、聋哑人辅助沟通设备等领域,帮助聋哑人更好地融入社会,促进无障碍交流。未来,该技术有望应用于在线教育、远程医疗等场景,为聋哑人提供更便捷的服务。
📄 摘要(原文)
The absence of effective communication the deaf population represents the main social gap in this community. Furthermore, the sign language, main deaf communication tool, is unlettered, i.e., there is no formal written representation. In consequence, main challenge today is the automatic translation among spatiotemporal sign representation and natural text language. Recent approaches are based on encoder-decoder architectures, where the most relevant strategies integrate attention modules to enhance non-linear correspondences, besides, many of these approximations require complex training and architectural schemes to achieve reasonable predictions, because of the absence of intermediate text projections. However, they are still limited by the redundant background information of the video sequences. This work introduces a multitask transformer architecture that includes a gloss learning representation to achieve a more suitable translation. The proposed approach also includes a dense motion representation that enhances gestures and includes kinematic information, a key component in sign language. From this representation it is possible to avoid background information and exploit the geometry of the signs, in addition, it includes spatiotemporal representations that facilitate the alignment between gestures and glosses as an intermediate textual representation. The proposed approach outperforms the state-of-the-art evaluated on the CoL-SLTD dataset, achieving a BLEU-4 of 72,64% in split 1, and a BLEU-4 of 14,64% in split 2. Additionally, the strategy was validated on the RWTH-PHOENIX-Weather 2014 T dataset, achieving a competitive BLEU-4 of 11,58%.