Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation

📄 arXiv: 2505.15438v1 📥 PDF

作者: Jianyuan Guo, Peike Li, Trevor Cohn

分类: cs.CV

发布日期: 2025-05-21

备注: Technical report, 21 pages


💡 一句话要点

提出伪 gloss 生成框架,无需人工标注即可实现手语翻译。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手语翻译 伪 gloss 生成 弱监督学习 大型语言模型 连接主义时间分类

📋 核心要点

  1. 现有手语翻译方法依赖人工标注的 gloss,成本高昂且数据稀缺,限制了模型的可扩展性。
  2. 论文提出伪 gloss 生成框架,利用大语言模型生成 gloss,并通过弱监督学习校正顺序以对齐视频。
  3. 实验结果表明,该方法在无 gloss 手语翻译任务上优于现有方法,并可与基于 gloss 的方法媲美。

📝 摘要(中文)

本文提出了一种用于手语翻译(SLT)的无 gloss 伪 gloss 生成框架,旨在将手语视频映射到口语文本。传统方法依赖于 gloss 注释作为中间表示,将 SLT 分解为视频到 gloss 的识别和 gloss 到文本的翻译两个子任务。然而,这种范式依赖于专家标注的 gloss 标签,成本高昂且现有数据集中稀缺,限制了其可扩展性。为了解决这个问题,我们提出了一个无 gloss 的伪 gloss 生成框架,该框架消除了对人工标注 gloss 的需求,同时保留了结构化的中间表示。具体来说,我们使用上下文学习,用少量文本-gloss 示例提示大型语言模型(LLM),以从口语文本生成草稿手语 gloss。为了增强 LLM 生成的伪 gloss 与视频中的手语序列之间的对应关系,我们通过弱监督学习过程校正伪 gloss 中的顺序,以实现更好的对齐。这种重新排序有助于结合辅助对齐目标,并允许通过连接主义时间分类(CTC)损失进行有效的监督。我们通过一个三阶段的流水线来训练我们的 SLT 模型,该模型由视觉编码器和翻译器组成,逐步缩小手语和口语之间的模态差距。尽管方法简单,但我们的方法在两个 SLT 基准测试中优于以前最先进的无 gloss 框架,并且与基于 gloss 的方法相比取得了具有竞争力的结果。

🔬 方法详解

问题定义:手语翻译(SLT)旨在将手语视频转换为口语文本。传统方法依赖于人工标注的 gloss 作为中间表示,但人工标注成本高昂,数据稀缺。因此,如何构建一个无需人工 gloss 标注的手语翻译系统是一个关键问题。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成伪 gloss,并使用弱监督学习方法来校正这些伪 gloss 的顺序,使其与手语视频更好地对齐。这样既保留了 gloss 作为中间表示的优势,又避免了人工标注的成本。

技术框架:该方法包含一个三阶段的训练流水线:1) 使用 LLM 从口语文本生成伪 gloss;2) 使用弱监督学习方法校正伪 gloss 的顺序,使其与手语视频对齐;3) 训练一个包含视觉编码器和翻译器的 SLT 模型,逐步缩小手语和口语之间的模态差距。该模型使用 CTC 损失进行监督,以实现更好的对齐。

关键创新:该方法最重要的创新点在于提出了一个无 gloss 的伪 gloss 生成框架,该框架无需人工标注 gloss 即可实现手语翻译。通过利用 LLM 的生成能力和弱监督学习的对齐能力,该方法有效地解决了人工标注 gloss 数据稀缺的问题。

关键设计:在伪 gloss 生成阶段,使用少量文本-gloss 示例提示 LLM,利用其上下文学习能力生成草稿 gloss。在伪 gloss 校正阶段,使用弱监督学习方法,通过调整 gloss 的顺序来最大化与手语视频的对齐程度。在 SLT 模型训练阶段,使用 CTC 损失来监督视觉编码器和翻译器的训练,以实现更好的对齐效果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该方法在两个 SLT 基准测试中优于以前最先进的无 gloss 框架,并且与基于 gloss 的方法相比取得了具有竞争力的结果。这表明该方法在无需人工标注 gloss 的情况下,也能有效地实现手语翻译。

🎯 应用场景

该研究成果可应用于自动手语翻译系统,帮助听障人士与健听人士进行无障碍交流。此外,该方法还可以扩展到其他低资源的多模态翻译任务中,例如跨语言视频翻译等,具有广泛的应用前景。

📄 摘要(原文)

Sign Language Translation (SLT) aims to map sign language videos to spoken language text. A common approach relies on gloss annotations as an intermediate representation, decomposing SLT into two sub-tasks: video-to-gloss recognition and gloss-to-text translation. While effective, this paradigm depends on expert-annotated gloss labels, which are costly and rarely available in existing datasets, limiting its scalability. To address this challenge, we propose a gloss-free pseudo gloss generation framework that eliminates the need for human-annotated glosses while preserving the structured intermediate representation. Specifically, we prompt a Large Language Model (LLM) with a few example text-gloss pairs using in-context learning to produce draft sign glosses from spoken language text. To enhance the correspondence between LLM-generated pseudo glosses and the sign sequences in video, we correct the ordering in the pseudo glosses for better alignment via a weakly supervised learning process. This reordering facilitates the incorporation of auxiliary alignment objectives, and allows for the use of efficient supervision via a Connectionist Temporal Classification (CTC) loss. We train our SLT mode, which consists of a vision encoder and a translator, through a three-stage pipeline, which progressively narrows the modality gap between sign language and spoken language. Despite its simplicity, our approach outperforms previous state-of-the-art gloss-free frameworks on two SLT benchmarks and achieves competitive results compared to gloss-based methods.