SignMouth: Leveraging Mouthing Cues for Sign Language Translation by Multimodal Contrastive Fusion

作者: Wenfang Wu, Tingting Yuan, Yupeng Li, Daling Wang, Xiaoming Fu

分类: cs.CV, cs.AI

发布日期: 2025-09-12 (更新: 2025-10-28)

💡 一句话要点

SignClip：利用口型线索的多模态对比融合手语翻译

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 手语翻译 多模态融合 对比学习 口型识别 非人工线索

📋 核心要点

现有手语翻译方法主要依赖手势，忽略了口型等非人工线索，导致翻译准确率受限。
SignClip融合手势和唇部运动特征，并采用分层对比学习框架，提升语义一致性。
在PHOENIX14T数据集上，SignClip在无词汇设置下，BLEU-4和ROUGE指标均超越现有最佳模型。

📝 摘要（中文）

手语翻译（SLT）旨在将手语视频翻译成自然语言，是实现包容性交流的重要桥梁。虽然最近的研究利用了强大的视觉骨干网络和大型语言模型，但大多数方法主要关注手势等人工信号，而忽略了口型等非人工线索。事实上，口型在手语中传达了重要的语言信息，并在消除视觉上相似的符号歧义方面发挥着关键作用。本文提出了一种新的框架SignClip，以提高手语翻译的准确性。它融合了人工和非人工线索，特别是空间手势和唇部运动特征。此外，SignClip引入了一个具有多层次对齐目标的分层对比学习框架，确保了符号-唇部和视觉-文本模态之间的语义一致性。在PHOENIX14T和How2Sign两个基准数据集上的大量实验证明了该方法的优越性。例如，在PHOENIX14T的无词汇设置中，SignClip超越了之前的最先进模型SpaMo，BLEU-4从24.32提高到24.71，ROUGE从46.57提高到48.38。

🔬 方法详解

问题定义：手语翻译旨在将手语视频转化为自然语言，但现有方法主要依赖于手势信息，忽略了口型等非人工线索。口型在手语中携带重要的语言信息，有助于区分视觉上相似的手语表达。因此，如何有效利用口型信息来提升手语翻译的准确性是一个关键问题。

核心思路：SignClip的核心思路是融合手势和口型两种模态的信息，并利用对比学习来对齐不同模态之间的语义表示。通过同时关注手势和口型，模型可以更全面地理解手语表达的含义。对比学习则用于确保不同模态的表示在语义空间中保持一致，从而提高翻译的准确性。

技术框架：SignClip的整体框架包含以下几个主要模块：1) 特征提取模块：分别提取手势和口型的视觉特征。2) 多模态融合模块：将手势和口型特征进行融合，得到融合后的视觉表示。3) 对比学习模块：利用对比学习损失函数，对齐手势-口型和视觉-文本模态之间的语义表示。4) 翻译模块：将融合后的视觉表示输入到翻译模型中，生成目标语言文本。

关键创新：SignClip的关键创新在于：1) 显式地利用了口型信息，弥补了现有方法对非人工线索的忽略。2) 提出了一个分层对比学习框架，包含多层次的对齐目标，确保了不同模态之间的语义一致性。3) 提出了SignClip，一个融合人工和非人工线索的框架。

关键设计：在特征提取模块中，可以使用预训练的视觉模型（如ResNet、Transformer）来提取手势和口型的视觉特征。在多模态融合模块中，可以使用注意力机制或简单的拼接操作来融合不同模态的特征。在对比学习模块中，可以使用InfoNCE损失函数来最大化正样本之间的相似度，最小化负样本之间的相似度。分层对比学习框架包含全局层面的对齐目标（例如，对齐整个手语视频和对应的文本描述），以及局部层面的对齐目标（例如，对齐每个手语符号和对应的文本片段）。

🖼️ 关键图片

📊 实验亮点

SignClip在PHOENIX14T和How2Sign两个基准数据集上进行了广泛的实验，结果表明SignClip显著优于现有方法。例如，在PHOENIX14T数据集的无词汇设置中，SignClip的BLEU-4指标从24.32提升到24.71，ROUGE指标从46.57提升到48.38，超越了之前的最佳模型SpaMo。

🎯 应用场景

SignClip的研究成果可应用于开发更准确、更自然的实时手语翻译系统，促进听障人士与健听人士之间的无障碍交流。该技术还可用于手语教学、手语内容理解和生成等领域，具有广阔的应用前景和社会价值。未来，该研究可以扩展到支持更多手语种类，并探索更有效的多模态融合和对齐方法。

📄 摘要（原文）

Sign language translation (SLT) aims to translate natural language from sign language videos, serving as a vital bridge for inclusive communication. While recent advances leverage powerful visual backbones and large language models, most approaches mainly focus on manual signals (hand gestures) and tend to overlook non-manual cues like mouthing. In fact, mouthing conveys essential linguistic information in sign languages and plays a crucial role in disambiguating visually similar signs. In this paper, we propose SignClip, a novel framework to improve the accuracy of sign language translation. It fuses manual and non-manual cues, specifically spatial gesture and lip movement features. Besides, SignClip introduces a hierarchical contrastive learning framework with multi-level alignment objectives, ensuring semantic consistency across sign-lip and visual-text modalities. Extensive experiments on two benchmark datasets, PHOENIX14T and How2Sign, demonstrate the superiority of our approach. For example, on PHOENIX14T, in the Gloss-free setting, SignClip surpasses the previous state-of-the-art model SpaMo, improving BLEU-4 from 24.32 to 24.71, and ROUGE from 46.57 to 48.38.

SignMouth: Leveraging Mouthing Cues for Sign Language Translation by Multimodal Contrastive Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理