EmoSign: A Multimodal Dataset for Understanding Emotions in American Sign Language

📄 arXiv: 2505.17090v1 📥 PDF

作者: Phoebe Chua, Cathy Mengying Fang, Takehiko Ohkawa, Raja Kushalnagar, Suranga Nanayakkara, Pattie Maes

分类: cs.CV

发布日期: 2025-05-20

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

EmoSign:构建美国手语情感理解多模态数据集,填补情感手语研究空白。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 美国手语 情感识别 多模态数据集 手语翻译 情感计算

📋 核心要点

  1. 口语中韵律特征的情感表达研究充分,但手语情感表达的指标理解不足,导致沟通障碍。
  2. EmoSign数据集通过收集美国手语视频,并由专业手语者标注情感,弥补了手语情感研究的不足。
  3. 论文提供情感分类基线模型,为手语情感识别建立新基准,促进模型在多模态情感识别能力提升。

📝 摘要(中文)

本研究旨在解决对手语中情感表达理解不足的问题,尤其是在关键场景下,手语的情感表达方式与口语不同,对面部表情和手势的语法和情感功能区分提出了挑战。为此,我们推出了EmoSign,这是首个包含200个美国手语(ASL)视频的情感标注数据集,并收集了情感线索的开放式描述。标注由三位具有专业口译经验的聋人ASL手语者完成。同时,我们提供了情感和情绪分类的基线模型。该数据集不仅填补了现有手语研究的关键空白,还为手语多模态情感识别的模型能力建立了新的基准。

🔬 方法详解

问题定义:现有手语情感识别研究不足,缺乏高质量的标注数据集。手语中面部表情和手势同时具有语法和情感功能,难以区分,这给情感识别带来了挑战。因此,需要构建一个包含情感标注的手语数据集,并提供基线模型,以促进手语情感识别的研究。

核心思路:通过收集美国手语视频,并由专业的聋人手语翻译员进行情感标注,构建高质量的多模态数据集。数据集包含情感标签和情感线索的开放式描述,为研究人员提供丰富的信息。同时,提供情感分类的基线模型,作为性能评估的参考。

技术框架:EmoSign数据集构建流程主要包括以下几个阶段:1) 视频收集:收集包含情感表达的美国手语视频。2) 情感标注:由三位具有专业口译经验的聋人ASL手语者对视频进行情感标注,包括情感类别和情感强度。3) 情感线索描述:收集手语者对视频中情感线索的开放式描述。4) 基线模型构建:构建情感和情绪分类的基线模型。5) 数据集发布:将数据集发布在Hugging Face上,供研究人员使用。

关键创新:EmoSign数据集是首个专门针对美国手语情感识别的多模态数据集。它不仅提供了情感标签,还包含了情感线索的开放式描述,为研究人员提供了更全面的信息。此外,数据集由专业的聋人手语翻译员进行标注,保证了标注的质量和准确性。

关键设计:数据集包含200个美国手语视频,情感标签包括情感类别(如快乐、悲伤、愤怒等)和情感强度。情感线索的开放式描述采用自由文本形式。基线模型采用常见的情感分类模型,如支持向量机(SVM)和循环神经网络(RNN)。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EmoSign数据集是首个包含情感标注的美国手语数据集,填补了手语情感研究的空白。论文提供了情感分类的基线模型,为后续研究提供了参考。数据集的发布将促进手语情感识别领域的发展,并为相关应用提供数据支持。具体的性能数据未知。

🎯 应用场景

该研究成果可应用于人机交互、手语翻译、情感计算等领域。例如,可以开发能够理解手语情感的智能助手,帮助聋人更好地与他人交流。此外,该数据集还可以用于训练情感识别模型,提高手语翻译的准确性和自然度,促进无障碍交流。

📄 摘要(原文)

Unlike spoken languages where the use of prosodic features to convey emotion is well studied, indicators of emotion in sign language remain poorly understood, creating communication barriers in critical settings. Sign languages present unique challenges as facial expressions and hand movements simultaneously serve both grammatical and emotional functions. To address this gap, we introduce EmoSign, the first sign video dataset containing sentiment and emotion labels for 200 American Sign Language (ASL) videos. We also collect open-ended descriptions of emotion cues. Annotations were done by 3 Deaf ASL signers with professional interpretation experience. Alongside the annotations, we include baseline models for sentiment and emotion classification. This dataset not only addresses a critical gap in existing sign language research but also establishes a new benchmark for understanding model capabilities in multimodal emotion recognition for sign languages. The dataset is made available at https://huggingface.co/datasets/catfang/emosign.