Generative Sign-description Prompts with Multi-positive Contrastive Learning for Sign Language Recognition
作者: Siyu Liang, Yunan Li, Wentian Xin, Huizhou Chen, Xujie Liu, Kang Liu, Qiguang Miao
分类: cs.CL, cs.CV
发布日期: 2025-05-05 (更新: 2025-07-22)
备注: 9 pages, 6 figures
💡 一句话要点
提出GSP-MC方法,利用生成式提示和多正例对比学习提升手语识别精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手语识别 生成式模型 对比学习 多模态融合 大型语言模型
📋 核心要点
- 手语识别面临标注数据不足和人工标注成本高昂的挑战,严重制约了模型性能的提升。
- 利用大型语言模型生成手语描述提示,结合多正例对比学习,实现骨骼特征与文本描述的有效对齐。
- 在Chinese SLR500和Turkish AUTSL数据集上取得了SOTA结果,验证了方法的有效性和跨语言泛化能力。
📝 摘要(中文)
本文针对手语识别(SLR)中因人工和非人工信号复杂性导致标注困难的问题,首次将生成式大型语言模型(LLM)集成到SLR任务中。我们提出了一种新颖的生成式手语描述提示多正例对比学习(GSP-MC)方法,该方法利用检索增强生成(RAG)和领域特定的LLM,结合多步提示工程和专家验证的手语语料库,生成精确的多部分描述。GSP-MC方法还采用双编码器架构,通过概率匹配双向对齐分层骨骼特征与多个文本描述(全局、同义词和部分级别)。我们的方法结合了全局和部分级别的损失,优化KL散度,以确保所有相关文本-骨骼对之间的鲁棒对齐,同时捕获符号级别的语义和详细的部分动态。实验表明,该方法在Chinese SLR500(达到97.1%)和Turkish AUTSL数据集(97.07%准确率)上均优于现有方法,达到了最先进的性能。该方法的跨语言有效性凸显了其在开发包容性通信技术方面的潜力。
🔬 方法详解
问题定义:手语识别任务面临的关键问题是缺乏高质量的标注数据。传统的手语识别依赖于人工标注,这既耗时又昂贵,并且难以捕捉手语中复杂的非手动信号。现有的方法通常难以充分利用有限的标注数据,导致模型泛化能力不足。
核心思路:本文的核心思路是利用大型语言模型(LLM)生成手语的文本描述,从而将手语识别问题转化为一个多模态对齐问题。通过将骨骼特征与生成的文本描述进行对比学习,可以有效地学习手语的语义信息,并提高模型的鲁棒性和泛化能力。这种方法避免了对大量人工标注数据的依赖,并且可以利用LLM的知识来增强模型的理解能力。
技术框架:GSP-MC方法采用双编码器架构,包括骨骼特征编码器和文本描述编码器。首先,利用检索增强生成(RAG)和领域特定的LLM,结合多步提示工程和专家验证的手语语料库,生成手语的全局描述、同义词描述和部分级别描述。然后,骨骼特征编码器提取手语视频的骨骼特征,文本描述编码器将生成的文本描述编码为向量表示。最后,通过多正例对比学习,将骨骼特征和文本描述进行对齐。
关键创新:该方法最重要的创新点在于将生成式大型语言模型引入手语识别任务,并利用多正例对比学习来实现骨骼特征和文本描述的有效对齐。与现有方法相比,该方法不需要大量的人工标注数据,并且可以利用LLM的知识来增强模型的理解能力。此外,该方法还采用了多步提示工程和专家验证的手语语料库,以确保生成的文本描述的准确性和可靠性。
关键设计:GSP-MC方法采用了双编码器架构,其中骨骼特征编码器可以使用现有的骨骼特征提取方法,例如ST-GCN。文本描述编码器可以使用预训练的语言模型,例如BERT。多正例对比学习的目标是最大化骨骼特征和正例文本描述之间的相似度,同时最小化骨骼特征和负例文本描述之间的相似度。损失函数包括全局级别的对比损失和部分级别的对比损失,并使用KL散度来优化不同级别的对齐。
🖼️ 关键图片
📊 实验亮点
GSP-MC方法在Chinese SLR500数据集上达到了97.1%的准确率,在Turkish AUTSL数据集上达到了97.07%的准确率,显著优于现有的手语识别方法。实验结果表明,该方法能够有效地利用大型语言模型生成的手语描述提示,并实现骨骼特征和文本描述的有效对齐,从而提高手语识别的精度和鲁棒性。
🎯 应用场景
该研究成果可应用于开发更高效、更易用的手语翻译系统,促进听障人士与健听人士之间的无障碍交流。此外,该技术还可应用于智能康复、虚拟助手等领域,为构建包容性社会贡献力量。未来,该方法有望推广到其他低资源语言的手语识别任务中。
📄 摘要(原文)
Sign language recognition (SLR) faces fundamental challenges in creating accurate annotations due to the inherent complexity of simultaneous manual and non-manual signals. To the best of our knowledge, this is the first work to integrate generative large language models (LLMs) into SLR tasks. We propose a novel Generative Sign-description Prompts Multi-positive Contrastive learning (GSP-MC) method that leverages retrieval-augmented generation (RAG) with domain-specific LLMs, incorporating multi-step prompt engineering and expert-validated sign language corpora to produce precise multipart descriptions. The GSP-MC method also employs a dual-encoder architecture to bidirectionally align hierarchical skeleton features with multiple text descriptions (global, synonym, and part level) through probabilistic matching. Our approach combines global and part-level losses, optimizing KL divergence to ensure robust alignment across all relevant text-skeleton pairs while capturing both sign-level semantics and detailed part dynamics. Experiments demonstrate state-of-the-art performance against existing methods on the Chinese SLR500 (reaching 97.1%) and Turkish AUTSL datasets (97.07% accuracy). The method's cross-lingual effectiveness highlight its potential for developing inclusive communication technologies.