SCOPE: Sign Language Contextual Processing with Embedding from LLMs

📄 arXiv: 2409.01073v1 📥 PDF

作者: Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu

分类: cs.CV, cs.AI, cs.CL

发布日期: 2024-09-02


💡 一句话要点

SCOPE:利用LLM嵌入进行手语上下文处理,提升识别与翻译

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手语识别 手语翻译 上下文感知 多模态融合 大型语言模型 聋人社区 中文手语

📋 核心要点

  1. 现有视觉手语识别与翻译方法在对话场景中表现不佳,主要原因是数据集多样性有限,且忽略了上下文信息。
  2. SCOPE框架通过多模态编码器融合对话上下文信息,并利用大型语言模型进行微调,从而实现上下文感知的手语识别与翻译。
  3. 实验结果表明,SCOPE在多个数据集上取得了SOTA性能,聋人社区的调查也验证了其在实际应用中的有效性。

📝 摘要(中文)

本文提出SCOPE(Sign language Contextual Processing with Embedding from LLMs),一种新型的上下文感知视觉手语识别(SLR)和翻译(SLT)框架,旨在解决对话场景中数据集多样性不足和上下文信息忽略的问题。对于SLR,通过多模态编码器利用对话上下文来增强词汇级别的识别。对于后续的SLT,通过结合先前的对话上下文来微调大型语言模型(LLM)。此外,本文还贡献了一个新的手语数据集,包含72小时的中文手语视频,涵盖各种场景下的上下文对话。实验结果表明,SCOPE框架在多个数据集(包括Phoenix-2014T、CSL-Daily和SCOPE数据集)上实现了最先进的性能。对聋人社区参与者的调查进一步验证了该方法在实际应用中的鲁棒性和有效性。数据集和代码都将开源。

🔬 方法详解

问题定义:现有基于视觉的手语识别和翻译方法在处理对话场景时面临挑战。主要痛点在于:一是数据集的对话场景覆盖不足,导致模型泛化能力差;二是忽略了对话上下文信息,使得模型难以准确理解手语的含义。因此,需要一种能够有效利用上下文信息的手语识别与翻译方法。

核心思路:本文的核心思路是利用对话上下文信息来提升手语识别和翻译的准确性。具体而言,通过多模态编码器融合视觉信息和对话文本信息,从而使模型能够理解手语的上下文含义。此外,还利用大型语言模型(LLM)的强大语言建模能力,通过微调使其能够更好地理解和生成手语翻译。

技术框架:SCOPE框架包含两个主要模块:上下文感知的手语识别(SLR)模块和上下文感知的手语翻译(SLT)模块。SLR模块使用多模态编码器,将手语视频和对话文本编码成统一的特征表示,然后进行词汇级别的识别。SLT模块则在SLR的基础上,利用LLM进行微调,将识别出的词汇序列翻译成自然语言。整个流程是先进行上下文感知的手语识别,再进行上下文感知的手语翻译。

关键创新:SCOPE框架的关键创新在于:一是提出了一个多模态编码器,能够有效地融合手语视频和对话文本信息;二是利用LLM进行微调,使其能够更好地理解和生成手语翻译;三是构建了一个包含大量上下文对话场景的中文手语数据集。这些创新使得SCOPE框架能够更好地处理对话场景中的手语识别与翻译任务。

关键设计:在多模态编码器中,使用了Transformer结构来融合视觉和文本信息。视觉信息通过预训练的视觉特征提取器获得,文本信息通过预训练的文本编码器获得。在LLM微调过程中,使用了交叉熵损失函数来优化模型。数据集包含了72小时的中文手语视频,涵盖了各种日常对话场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SCOPE框架在Phoenix-2014T、CSL-Daily和SCOPE数据集上均取得了SOTA性能。例如,在SCOPE数据集上,SLR的准确率相比现有方法提升了显著幅度(具体数值未知)。此外,对聋人社区参与者的调查表明,SCOPE框架生成的翻译结果更自然、易于理解,验证了其在实际应用中的有效性。

🎯 应用场景

该研究成果可应用于多种场景,例如:聋人与健听人之间的实时交流翻译、手语教学、智能客服等。通过提供更准确、自然的翻译,可以帮助聋人更好地融入社会,提高生活质量。未来,该技术有望进一步发展,实现更复杂场景下的手语理解与生成,促进无障碍交流。

📄 摘要(原文)

Sign languages, used by around 70 million Deaf individuals globally, are visual languages that convey visual and contextual information. Current methods in vision-based sign language recognition (SLR) and translation (SLT) struggle with dialogue scenes due to limited dataset diversity and the neglect of contextually relevant information. To address these challenges, we introduce SCOPE (Sign language Contextual Processing with Embedding from LLMs), a novel context-aware vision-based SLR and SLT framework. For SLR, we utilize dialogue contexts through a multi-modal encoder to enhance gloss-level recognition. For subsequent SLT, we further fine-tune a Large Language Model (LLM) by incorporating prior conversational context. We also contribute a new sign language dataset that contains 72 hours of Chinese sign language videos in contextual dialogues across various scenarios. Experimental results demonstrate that our SCOPE framework achieves state-of-the-art performance on multiple datasets, including Phoenix-2014T, CSL-Daily, and our SCOPE dataset. Moreover, surveys conducted with participants from the Deaf community further validate the robustness and effectiveness of our approach in real-world applications. Both our dataset and code will be open-sourced to facilitate further research.