Recognising BSL Fingerspelling in Continuous Signing Sequences

📄 arXiv: 2603.19523v1 📥 PDF

作者: Alyssa Chan, Taein Kwon, Andrew Zisserman

分类: cs.CV

发布日期: 2026-03-19

备注: 11 pages, 15 figures


💡 一句话要点

提出FS23K大规模BSL手指拼写数据集,并设计融合双手动交互和口型的识别模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 英国手语 手指拼写识别 手语数据集 双手动交互 口型线索

📋 核心要点

  1. 现有BSL手指拼写数据集规模小,时间或字母标注不准确,难以训练高性能识别模型。
  2. 提出一种新的手指拼写识别模型,显式地建模双手动交互和口型线索,提升识别精度。
  3. 构建了大规模BSL手指拼写数据集FS23K,并验证了所提方法在降低字符错误率方面的有效性。

📝 摘要(中文)

手指拼写是英国手语(BSL)的关键组成部分,用于拼写专有名词、技术术语和缺乏既定词汇符号的单词。由于手语语速快以及手语使用者常省略字母,手指拼写识别极具挑战性,而现有的BSL手指拼写数据集要么规模小,要么在时间或字母标注上不准确。本文介绍了一个新的大规模BSL手指拼写数据集FS23K,该数据集是使用迭代标注框架构建的。此外,我们提出了一种手指拼写识别模型,该模型显式地考虑了双手动交互和口型线索。结果表明,通过改进的标注,我们的方法将字符错误率(CER)降低了一半,优于先前的手指拼写识别技术。这些发现证明了我们方法的有效性,并突出了其在支持手语理解和可扩展的自动化标注流程方面的潜力。项目主页见https://taeinkwon.com/projects/fs23k/。

🔬 方法详解

问题定义:论文旨在解决连续手语序列中BSL手指拼写的准确识别问题。现有方法在处理快速手语和字母省略时表现不佳,并且缺乏足够规模和高质量的数据集进行训练。因此,如何构建大规模、高质量的数据集,并设计能够有效利用手语特征的识别模型是关键挑战。

核心思路:论文的核心思路是通过构建大规模数据集来提供充足的训练数据,并设计一个能够显式建模双手动交互和口型线索的识别模型。通过融合这些信息,模型能够更准确地识别手指拼写。

技术框架:整体框架包含两个主要部分:数据集构建和模型训练。数据集FS23K通过迭代标注框架构建,以确保时间和字母标注的准确性。识别模型则利用双手动交互和口型信息进行特征提取和序列建模,最终输出识别结果。具体模型架构细节未知。

关键创新:论文的关键创新在于:1)构建了大规模高质量的BSL手指拼写数据集FS23K;2)提出了一种显式建模双手动交互和口型线索的手指拼写识别模型。与现有方法相比,该模型能够更有效地利用手语特征,从而提高识别精度。

关键设计:论文中关于模型和数据集构建的关键设计细节包括:迭代标注框架的具体流程(未知),双手动交互和口型线索的融合方式(未知),以及模型中使用的具体网络结构、损失函数和参数设置(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的方法在FS23K数据集上取得了显著的性能提升,字符错误率(CER)相比于先前的技术水平降低了一半。这一结果表明,所提出的数据集和模型在BSL手指拼写识别方面具有很强的竞争力,为未来的研究奠定了基础。

🎯 应用场景

该研究成果可应用于手语翻译、手语教学、人机交互等领域。通过提高手指拼写识别的准确率,可以帮助听障人士更好地与他人交流,促进手语的普及和应用。未来,该技术有望应用于智能助手、教育软件等产品中,为听障人士提供更便捷的服务。

📄 摘要(原文)

Fingerspelling is a critical component of British Sign Language (BSL), used to spell proper names, technical terms, and words that lack established lexical signs. Fingerspelling recognition is challenging due to the rapid pace of signing and common letter omissions by native signers, while existing BSL fingerspelling datasets are either small in scale or temporally and letter-wise inaccurate. In this work, we introduce a new large-scale BSL fingerspelling dataset, FS23K, constructed using an iterative annotation framework. In addition, we propose a fingerspelling recognition model that explicitly accounts for bi-manual interactions and mouthing cues. As a result, with refined annotations, our approach halves the character error rate (CER) compared to the prior state of the art on fingerspelling recognition. These findings demonstrate the effectiveness of our method and highlight its potential to support future research in sign language understanding and scalable, automated annotation pipelines. The project page can be found at https://taeinkwon.com/projects/fs23k/.