Target-Side Paraphrase Augmentation for Sign Language Translation with Large Language Models

📄 arXiv: 2605.31393v1 📥 PDF

作者: Pedro Dal Bianco, Jean Paul Nunes Reinhold, Oscar Stanchi, Facundo Quiroga, Franco Ronchetti, Ulisses Brisolara Corrêa

分类: cs.CL, cs.AI

发布日期: 2026-05-29

备注: Accepted at GenSign (https://genai4sl.github.io/) at CVPR 2026. Non proceedings track


💡 一句话要点

提出基于GPT-4o目标端释义增强的Signformer手语翻译方法,提升低资源场景性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手语翻译 数据增强 大型语言模型 GPT-4o 目标端释义

📋 核心要点

  1. 手语翻译面临数据稀缺和长尾词汇挑战,限制了模型性能。
  2. 利用GPT-4o生成目标句子的释义变体进行数据增强,提升模型泛化能力。
  3. 实验表明,该方法在一定程度上提升了翻译性能,尤其是在词汇多样性适中的数据集上。

📝 摘要(中文)

手语翻译(SLT)仍然受到配对的手语视频/文本语料库有限和重尾目标词汇表的限制。本文研究了目标端增强,其中GPT-4o生成参考句子的受控释义变体,而手语输入保持不变。基于Signformer风格的基于姿势的Transformer在两阶段计划下进行训练:在增强的语料库上进行预训练,然后在原始参考上进行微调。我们在三个数据集上进行评估,这些数据集涵盖了互补的挑战:具有适度词汇多样性的PHOENIX14T(德国手语);具有高度受控的重复记录的GSL(希腊手语);以及具有严重长尾稀疏性的LSA-T(阿根廷手语)。在PHOENIX14T上,增强将BLEU-4从9.56提高到10.33。接近饱和的GSL基线和极度稀疏的LSA-T设置揭示了该方法的局限性。据我们所知,这是第一个将LLM生成的目标端释义和LLM-as-a-Judge评估应用于SLT的研究。语义评估揭示了词汇重叠指标低估的保真度增益。

🔬 方法详解

问题定义:手语翻译任务面临着训练数据不足的问题,特别是配对的手语视频和文本数据。此外,目标语言(文本)通常具有长尾分布的词汇,使得模型难以学习罕见词汇的翻译。现有方法在低资源和长尾词汇场景下表现不佳。

核心思路:利用大型语言模型(LLM),特别是GPT-4o,生成目标句子的释义变体,从而在不改变手语输入的情况下增加训练数据的多样性。这种目标端的数据增强可以有效地扩充训练集,提高模型对目标语言的理解和生成能力。核心在于利用LLM的强大生成能力,创造更多样化的文本表达,从而提升模型的鲁棒性。

技术框架:整体框架包含两个主要阶段:1) 数据增强阶段:使用GPT-4o生成目标句子的释义变体,构建增强的训练数据集。2) 模型训练阶段:使用Signformer风格的基于姿势的Transformer模型,首先在增强的语料库上进行预训练,然后在原始的参考数据上进行微调。Signformer模型负责将手语姿势序列映射到文本序列。

关键创新:该研究的关键创新在于将LLM生成的目标端释义应用于手语翻译任务。以往的数据增强方法可能侧重于手语视频的增强,而本文则专注于目标文本的增强,这是一种新颖的思路。此外,首次将LLM作为评估指标(LLM-as-a-Judge)应用于手语翻译的语义评估,弥补了传统词汇重叠指标的不足。

关键设计:在数据增强阶段,需要设计合适的prompt来引导GPT-4o生成高质量的释义变体。在模型训练阶段,采用了两阶段训练策略,即先在增强数据上预训练,再在原始数据上微调,以充分利用增强数据的信息,同时避免过拟合。Signformer模型采用标准的Transformer架构,并针对手语姿势数据的特点进行了优化。具体的参数设置和损失函数细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在PHOENIX14T数据集上,使用GPT-4o生成的目标端释义增强方法将BLEU-4指标从9.56提升到10.33。实验结果表明,该方法在一定程度上能够提升手语翻译的性能。同时,研究也揭示了该方法在数据极度稀疏或基线性能接近饱和时的局限性。

🎯 应用场景

该研究成果可应用于提升手语翻译系统的性能,尤其是在低资源语言和专业领域。通过数据增强,可以降低对手语-文本平行语料库的需求,加速手语翻译技术的普及。此外,该方法可以扩展到其他低资源机器翻译任务,具有广泛的应用前景。

📄 摘要(原文)

Sign language translation (SLT) remains constrained by limited paired sign-video/text corpora and heavy-tailed target vocabularies. We study target-side augmentation in which GPT-4o generates controlled paraphrase variants of reference sentences while the sign input remains unchanged. A Signformer-style pose-based Transformer is trained under a two-stage schedule: pre-training on the augmented corpus followed by fine-tuning on the original references. We evaluate on three datasets spanning complementary challenges: PHOENIX14T (German Sign Language), with moderate lexical diversity; GSL (Greek Sign Language), with highly ontrolled, repetitive recordings; and LSA-T (Argentinian Sign Language), with severe long-tail sparsity. On PHOENIX14T, augmentation improves BLEU-4 from 9.56 to 10.33. The near-saturated GSL baseline and extremely sparse LSA-T setting reveal the limits of the approach. To our knowledge, this is the first study to apply LLM-generated target-side araphrases and LLM-as-a-Judge evaluation to SLT. The semantic evaluation reveals gains in fidelity that lexical overlap metrics understate.