Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation

作者: Jianyuan Guo, Peike Li, Trevor Cohn

分类: cs.CV

发布日期: 2025-05-21

备注: Technical report, 21 pages

💡 一句话要点

提出伪 gloss 生成框架，无需人工标注即可实现手语翻译。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 手语翻译 伪 gloss 生成 弱监督学习 大型语言模型 连接主义时间分类

📋 核心要点

现有手语翻译方法依赖人工标注的 gloss，成本高昂且数据稀缺，限制了模型的可扩展性。
论文提出伪 gloss 生成框架，利用大语言模型生成 gloss，并通过弱监督学习校正顺序以对齐视频。
实验结果表明，该方法在无 gloss 手语翻译任务上优于现有方法，并可与基于 gloss 的方法媲美。

📝 摘要（中文）

本文提出了一种用于手语翻译（SLT）的无 gloss 伪 gloss 生成框架，旨在将手语视频映射到口语文本。传统方法依赖于 gloss 注释作为中间表示，将 SLT 分解为视频到 gloss 的识别和 gloss 到文本的翻译两个子任务。然而，这种范式依赖于专家标注的 gloss 标签，成本高昂且现有数据集中稀缺，限制了其可扩展性。为了解决这个问题，我们提出了一个无 gloss 的伪 gloss 生成框架，该框架消除了对人工标注 gloss 的需求，同时保留了结构化的中间表示。具体来说，我们使用上下文学习，用少量文本-gloss 示例提示大型语言模型（LLM），以从口语文本生成草稿手语 gloss。为了增强 LLM 生成的伪 gloss 与视频中的手语序列之间的对应关系，我们通过弱监督学习过程校正伪 gloss 中的顺序，以实现更好的对齐。这种重新排序有助于结合辅助对齐目标，并允许通过连接主义时间分类（CTC）损失进行有效的监督。我们通过一个三阶段的流水线来训练我们的 SLT 模型，该模型由视觉编码器和翻译器组成，逐步缩小手语和口语之间的模态差距。尽管方法简单，但我们的方法在两个 SLT 基准测试中优于以前最先进的无 gloss 框架，并且与基于 gloss 的方法相比取得了具有竞争力的结果。

🔬 方法详解

问题定义：手语翻译（SLT）旨在将手语视频转换为口语文本。传统方法依赖于人工标注的 gloss 作为中间表示，但人工标注成本高昂，数据稀缺。因此，如何构建一个无需人工 gloss 标注的手语翻译系统是一个关键问题。

核心思路：论文的核心思路是利用大型语言模型（LLM）生成伪 gloss，并使用弱监督学习方法来校正这些伪 gloss 的顺序，使其与手语视频更好地对齐。这样既保留了 gloss 作为中间表示的优势，又避免了人工标注的成本。

技术框架：该方法包含一个三阶段的训练流水线：1) 使用 LLM 从口语文本生成伪 gloss；2) 使用弱监督学习方法校正伪 gloss 的顺序，使其与手语视频对齐；3) 训练一个包含视觉编码器和翻译器的 SLT 模型，逐步缩小手语和口语之间的模态差距。该模型使用 CTC 损失进行监督，以实现更好的对齐。

关键创新：该方法最重要的创新点在于提出了一个无 gloss 的伪 gloss 生成框架，该框架无需人工标注 gloss 即可实现手语翻译。通过利用 LLM 的生成能力和弱监督学习的对齐能力，该方法有效地解决了人工标注 gloss 数据稀缺的问题。

关键设计：在伪 gloss 生成阶段，使用少量文本-gloss 示例提示 LLM，利用其上下文学习能力生成草稿 gloss。在伪 gloss 校正阶段，使用弱监督学习方法，通过调整 gloss 的顺序来最大化与手语视频的对齐程度。在 SLT 模型训练阶段，使用 CTC 损失来监督视觉编码器和翻译器的训练，以实现更好的对齐效果。

🖼️ 关键图片

📊 实验亮点

该方法在两个 SLT 基准测试中优于以前最先进的无 gloss 框架，并且与基于 gloss 的方法相比取得了具有竞争力的结果。这表明该方法在无需人工标注 gloss 的情况下，也能有效地实现手语翻译。

🎯 应用场景

该研究成果可应用于自动手语翻译系统，帮助听障人士与健听人士进行无障碍交流。此外，该方法还可以扩展到其他低资源的多模态翻译任务中，例如跨语言视频翻译等，具有广泛的应用前景。

📄 摘要（原文）

Sign Language Translation (SLT) aims to map sign language videos to spoken language text. A common approach relies on gloss annotations as an intermediate representation, decomposing SLT into two sub-tasks: video-to-gloss recognition and gloss-to-text translation. While effective, this paradigm depends on expert-annotated gloss labels, which are costly and rarely available in existing datasets, limiting its scalability. To address this challenge, we propose a gloss-free pseudo gloss generation framework that eliminates the need for human-annotated glosses while preserving the structured intermediate representation. Specifically, we prompt a Large Language Model (LLM) with a few example text-gloss pairs using in-context learning to produce draft sign glosses from spoken language text. To enhance the correspondence between LLM-generated pseudo glosses and the sign sequences in video, we correct the ordering in the pseudo glosses for better alignment via a weakly supervised learning process. This reordering facilitates the incorporation of auxiliary alignment objectives, and allows for the use of efficient supervision via a Connectionist Temporal Classification (CTC) loss. We train our SLT mode, which consists of a vision encoder and a translator, through a three-stage pipeline, which progressively narrows the modality gap between sign language and spoken language. Despite its simplicity, our approach outperforms previous state-of-the-art gloss-free frameworks on two SLT benchmarks and achieves competitive results compared to gloss-based methods.

Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理