Sign Spotting Disambiguation using Large Language Models

📄 arXiv: 2507.03703v4 📥 PDF

作者: JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden

分类: cs.CV, cs.AI

发布日期: 2025-07-04 (更新: 2025-08-07)

备注: Accepted in the international conference on Intelligent Virtual Agents (IVA Adjunct)


💡 一句话要点

提出一种基于大语言模型的无训练手语识别歧义消除框架,提升手语识别质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手语识别 大语言模型 歧义消除 动态时间规整 上下文理解

📋 核心要点

  1. 现有手语识别方法面临词汇表不灵活和连续手语流中存在歧义的挑战。
  2. 利用大语言模型进行上下文感知的手语词义消歧,无需模型微调,提升识别准确率。
  3. 在合成和真实数据集上验证,该方法在准确性和句子流畅性上优于传统方法。

📝 摘要(中文)

手语识别(Sign spotting)旨在连续手语视频中识别和定位单个手语,对于扩展数据集标注和解决手语翻译中严重的数据稀缺问题至关重要。虽然自动手语识别有望实现大规模的帧级别监督,但它面临着词汇表不灵活以及连续手语流中固有的歧义等挑战。因此,我们提出了一种新颖的、无需训练的框架,该框架集成了大型语言模型(LLM),以显著提高手语识别的质量。我们的方法提取全局时空特征和手形特征,然后使用动态时间规整和余弦相似度将这些特征与大型手语词典进行匹配。这种基于词典的匹配固有地提供了卓越的词汇灵活性,而无需模型重新训练。为了减轻匹配过程中的噪声和歧义,LLM通过集束搜索执行上下文感知的词义消歧,值得注意的是,无需进行微调。在合成和真实世界的手语数据集上进行的大量实验表明,与传统方法相比,我们的方法具有更高的准确性和句子流畅性,突出了LLM在推进手语识别方面的潜力。

🔬 方法详解

问题定义:论文旨在解决连续手语视频中手语识别的歧义性问题,现有方法通常词汇表固定,且难以处理连续手语中存在的多种含义。这些问题限制了手语识别的准确性和实用性。

核心思路:论文的核心思路是利用大型语言模型(LLM)的上下文理解能力,对手语识别结果进行消歧。通过提取手语的视觉特征,并结合LLM的语言知识,选择最符合上下文语境的手语解释。这种方法无需针对特定手语数据集进行训练,具有更好的泛化能力。

技术框架:该框架主要包含三个阶段:1) 特征提取:提取手语视频的全局时空特征和手形特征。2) 词典匹配:使用动态时间规整和余弦相似度将提取的特征与大型手语词典进行匹配,得到候选手语列表。3) 歧义消除:利用LLM对候选手语列表进行上下文分析,通过集束搜索选择最符合语境的手语序列。

关键创新:该方法最重要的创新点在于将大型语言模型引入手语识别的歧义消除过程,并且无需对LLM进行微调。这使得该方法能够利用LLM强大的语言理解能力,同时避免了训练成本和过拟合风险。

关键设计:在特征提取阶段,使用了全局时空特征和手形特征,以捕捉手语的动态信息和静态信息。在词典匹配阶段,使用了动态时间规整和余弦相似度,以处理手语速度和姿态的变化。在歧义消除阶段,使用了集束搜索,以在候选手语序列中找到最优解。具体参数设置和网络结构在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在合成和真实手语数据集上均取得了优于传统方法的性能。具体提升幅度未知,但论文强调了在准确性和句子流畅性方面的显著优势。该方法无需训练,具有良好的泛化能力和实用价值。

🎯 应用场景

该研究成果可应用于手语翻译、手语教学、人机交互等领域。通过提高手语识别的准确性和鲁棒性,可以帮助听力障碍人士更好地与社会交流,促进手语的普及和应用。未来,该技术有望集成到智能设备中,实现实时手语翻译和辅助交流。

📄 摘要(原文)

Sign spotting, the task of identifying and localizing individual signs within continuous sign language video, plays a pivotal role in scaling dataset annotations and addressing the severe data scarcity issue in sign language translation. While automatic sign spotting holds great promise for enabling frame-level supervision at scale, it grapples with challenges such as vocabulary inflexibility and ambiguity inherent in continuous sign streams. Hence, we introduce a novel, training-free framework that integrates Large Language Models (LLMs) to significantly enhance sign spotting quality. Our approach extracts global spatio-temporal and hand shape features, which are then matched against a large-scale sign dictionary using dynamic time warping and cosine similarity. This dictionary-based matching inherently offers superior vocabulary flexibility without requiring model retraining. To mitigate noise and ambiguity from the matching process, an LLM performs context-aware gloss disambiguation via beam search, notably without fine-tuning. Extensive experiments on both synthetic and real-world sign language datasets demonstrate our method's superior accuracy and sentence fluency compared to traditional approaches, highlighting the potential of LLMs in advancing sign spotting.