SSL-SSAW: Self-Supervised Learning with Sigmoid Self-Attention Weighting for Question-Based Sign Language Translation

📄 arXiv: 2509.14036v1 📥 PDF

作者: Zekang Liu, Wei Feng, Fanhua Shang, Lianyu Hu, Jichao Feng, Liqing Gao

分类: cs.CL, cs.AI

发布日期: 2025-09-17


💡 一句话要点

提出基于问题引导的自监督手语翻译框架SSL-SSAW,提升翻译质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手语翻译 自监督学习 多模态融合 对比学习 注意力机制

📋 核心要点

  1. 现有手语翻译方法依赖词语标注,成本高昂且忽略了对话上下文。
  2. 提出SSL-SSAW框架,利用对比学习对齐多模态特征,并用SSAW模块自适应提取问题和手语序列特征。
  3. 在CSL-Daily-QA和PHOENIX-2014T-QA数据集上,SSL-SSAW达到SOTA,问题辅助性能媲美甚至超越词语辅助。

📝 摘要(中文)

本文提出了一种新的任务:基于问题的手语翻译(QB-SLT),旨在探索对话在手语翻译中的有效整合。与词语(手语转录)标注不同,对话自然存在于交流中,且更容易标注。该任务的关键挑战在于对齐多模态特征,同时利用问题的上下文来改进翻译。为了解决这个问题,我们提出了一种跨模态自监督学习与Sigmoid自注意力加权(SSL-SSAW)融合方法。具体来说,我们采用对比学习来对齐QB-SLT中的多模态特征,然后引入Sigmoid自注意力加权(SSAW)模块,用于从问题和手语序列中自适应地提取特征。此外,我们利用现有的问题文本,通过自监督学习来增强表示和翻译能力。我们在新构建的CSL-Daily-QA和PHOENIX-2014T-QA数据集上评估了我们的方法,SSL-SSAW取得了SOTA性能。值得注意的是,易于获取的问题辅助可以达到甚至超过词语辅助的性能。此外,可视化结果表明,结合对话可以有效提高翻译质量。

🔬 方法详解

问题定义:传统手语翻译依赖于手语的词语转录(glosses),获取成本高,且忽略了对话上下文提供的丰富信息。论文旨在解决如何有效利用对话信息(以问题形式存在)来提升手语翻译的质量,提出Question-based Sign Language Translation (QB-SLT)任务。

核心思路:核心在于利用问题文本作为辅助信息,通过跨模态自监督学习对齐问题和手语视频的特征表示,并设计自注意力机制来动态调整问题和手语特征的权重,从而提升翻译的准确性。这样设计的目的是为了模拟真实场景中对话对手语理解的辅助作用。

技术框架:整体框架包含以下几个主要模块:1) 特征提取模块:分别提取手语视频和问题文本的特征。2) 跨模态对齐模块:使用对比学习对齐手语视频和问题文本的特征表示。3) 特征融合模块:使用Sigmoid Self-attention Weighting (SSAW)模块,根据问题和手语序列的特征自适应地调整权重,融合多模态信息。4) 翻译模块:将融合后的特征输入到翻译模型中,生成目标语言文本。

关键创新:主要创新点在于:1) 提出了QB-SLT任务,将对话信息引入手语翻译。2) 提出了SSL-SSAW框架,通过对比学习和自注意力机制有效融合多模态信息。3) 利用自监督学习增强问题文本的表示能力。与现有方法相比,该方法更有效地利用了对话上下文信息,提高了翻译质量。

关键设计:1) 对比学习损失函数:用于对齐手语视频和问题文本的特征表示,具体形式未知。2) Sigmoid Self-attention Weighting (SSAW)模块:使用Sigmoid函数生成权重,用于自适应地调整问题和手语序列的特征权重,具体结构未知。3) 自监督学习:利用现有的问题文本,通过某种自监督学习方法(具体方法未知)来增强表示和翻译能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SSL-SSAW在CSL-Daily-QA和PHOENIX-2014T-QA数据集上取得了SOTA性能,证明了其有效性。更重要的是,实验结果表明,利用容易获取的问题辅助信息,可以达到甚至超过使用词语标注的性能,这大大降低了手语翻译的标注成本。可视化结果也验证了对话信息在提高翻译质量方面的作用。

🎯 应用场景

该研究成果可应用于智能手语翻译系统,帮助听障人士与健听人士进行无障碍交流。例如,在智能客服、在线教育、医疗咨询等场景中,系统可以自动理解用户的手语提问,并生成相应的文字回复,从而提升服务效率和用户体验。未来,该技术还可以扩展到其他多模态翻译任务中。

📄 摘要(原文)

Sign Language Translation (SLT) bridges the communication gap between deaf people and hearing people, where dialogue provides crucial contextual cues to aid in translation. Building on this foundational concept, this paper proposes Question-based Sign Language Translation (QB-SLT), a novel task that explores the efficient integration of dialogue. Unlike gloss (sign language transcription) annotations, dialogue naturally occurs in communication and is easier to annotate. The key challenge lies in aligning multimodality features while leveraging the context of the question to improve translation. To address this issue, we propose a cross-modality Self-supervised Learning with Sigmoid Self-attention Weighting (SSL-SSAW) fusion method for sign language translation. Specifically, we employ contrastive learning to align multimodality features in QB-SLT, then introduce a Sigmoid Self-attention Weighting (SSAW) module for adaptive feature extraction from question and sign language sequences. Additionally, we leverage available question text through self-supervised learning to enhance representation and translation capabilities. We evaluated our approach on newly constructed CSL-Daily-QA and PHOENIX-2014T-QA datasets, where SSL-SSAW achieved SOTA performance. Notably, easily accessible question assistance can achieve or even surpass the performance of gloss assistance. Furthermore, visualization results demonstrate the effectiveness of incorporating dialogue in improving translation quality.