A Critical Study of Automatic Evaluation in Sign Language Translation

作者: Shakib Yazdani, Yasser Hamidullah, Cristina España-Bonet, Eleftherios Avramidis, Josef van Genabith

分类: cs.CL

发布日期: 2025-10-29 (更新: 2025-11-14)

备注: Submitted to the LREC 2026 conference

💡 一句话要点

针对手语翻译， критически 评估现有自动评估指标的局限性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 手语翻译 自动评估 文本指标 大型语言模型 多模态评估

📋 核心要点

现有手语翻译评估主要依赖文本指标，无法准确反映手语的语义和视觉特征。
论文通过控制释义、幻觉和长度等因素，系统评估了多种文本评估指标的优缺点。
实验表明，传统指标存在局限性，LLM评估器虽有提升但存在偏差，需多模态评估。

📝 摘要（中文）

自动评估指标对于推进手语翻译（SLT）至关重要。目前SLT的评估指标，如BLEU和ROUGE，仅基于文本，文本指标在多大程度上能够可靠地捕捉SLT输出的质量仍不清楚。为了解决这个问题，我们通过分析六种指标来研究基于文本的SLT评估指标的局限性，包括BLEU、chrF和ROUGE，以及BLEURT，以及基于大型语言模型（LLM）的评估器，如G-Eval和GEMBA零样本直接评估。具体而言，我们评估了这些指标在三种受控条件下的Consistency和鲁棒性：释义、模型输出中的幻觉以及句子长度的变化。我们的分析突出了词汇重叠指标的局限性，并表明虽然基于LLM的评估器更好地捕捉了传统指标经常遗漏的语义等价性，但它们也可能表现出对LLM释义翻译的偏见。此外，虽然所有指标都能够检测到幻觉，但BLEU往往过于敏感，而BLEURT和基于LLM的评估器对细微情况相对宽容。这促使我们需要超越基于文本的指标的多模态评估框架，以实现对手语翻译输出的更全面评估。

🔬 方法详解

问题定义：手语翻译（SLT）的自动评估依赖于文本指标，如BLEU和ROUGE，这些指标无法充分捕捉手语的视觉和语义信息。现有方法的痛点在于无法准确评估SLT的质量，导致模型优化方向可能存在偏差。

核心思路：论文的核心思路是通过系统性的实验，分析现有文本评估指标在不同情况下的表现，从而揭示其局限性。通过控制释义、幻觉和句子长度等因素，评估指标的Consistency和鲁棒性，为未来开发更有效的SLT评估方法提供依据。

技术框架：论文采用实验分析的方法，主要分为以下几个阶段： 1. 选择多种文本评估指标，包括BLEU、chrF、ROUGE、BLEURT、G-Eval和GEMBA。 2. 构建包含释义、幻觉和不同长度句子的测试数据集。 3. 使用选定的评估指标对测试数据集进行评估，并分析评估结果。 4. 对比不同指标在不同情况下的表现，总结其优缺点。

关键创新：论文的关键创新在于对现有SLT评估指标进行了全面的 критически 分析，揭示了文本指标在评估SLT质量方面的局限性。同时，论文强调了多模态评估框架的重要性，为未来SLT评估方法的研究方向提供了指导。

关键设计：论文的关键设计包括： 1. 精心设计的测试数据集，包含释义、幻觉和不同长度的句子，用于评估指标的Consistency和鲁棒性。 2. 选择具有代表性的文本评估指标，包括基于词汇重叠的指标和基于LLM的指标。 3. 采用零样本直接评估方法，评估基于LLM的评估器的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，传统的词汇重叠指标（如BLEU）在评估SLT质量方面存在局限性，对释义和句子长度变化敏感。基于LLM的评估器（如G-Eval和GEMBA）在捕捉语义等价性方面有所提升，但可能存在对LLM释义翻译的偏见。所有指标都能检测到幻觉，但BLEU过于敏感，而BLEURT和LLM评估器相对宽容。

🎯 应用场景

该研究成果可应用于手语翻译系统的开发和评估，有助于提高手语翻译的质量和准确性。未来的研究可以基于此，开发多模态评估框架，更好地评估手语翻译系统的性能，促进手语交流的普及。

📄 摘要（原文）

Automatic evaluation metrics are crucial for advancing sign language translation (SLT). Current SLT evaluation metrics, such as BLEU and ROUGE, are only text-based, and it remains unclear to what extent text-based metrics can reliably capture the quality of SLT outputs. To address this gap, we investigate the limitations of text-based SLT evaluation metrics by analyzing six metrics, including BLEU, chrF, and ROUGE, as well as BLEURT on the one hand, and large language model (LLM)-based evaluators such as G-Eval and GEMBA zero-shot direct assessment on the other hand. Specifically, we assess the consistency and robustness of these metrics under three controlled conditions: paraphrasing, hallucinations in model outputs, and variations in sentence length. Our analysis highlights the limitations of lexical overlap metrics and demonstrates that while LLM-based evaluators better capture semantic equivalence often missed by conventional metrics, they can also exhibit bias toward LLM-paraphrased translations. Moreover, although all metrics are able to detect hallucinations, BLEU tends to be overly sensitive, whereas BLEURT and LLM-based evaluators are comparatively lenient toward subtle cases. This motivates the need for multimodal evaluation frameworks that extend beyond text-based metrics to enable a more holistic assessment of SLT outputs.

A Critical Study of Automatic Evaluation in Sign Language Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理