SyriSign: A Parallel Corpus for Arabic Text to Syrian Arabic Sign Language Translation

📄 arXiv: 2603.29219v1 📥 PDF

作者: Mohammad Amer Khalil, Raghad Nahas, Ahmad Nassar, Khloud Al Jallad

分类: cs.CL, cs.AI, cs.CV, cs.HC

发布日期: 2026-03-31


💡 一句话要点

SyriSign:为阿拉伯语文本到叙利亚阿拉伯语手语翻译构建平行语料库

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 叙利亚阿拉伯语手语 平行语料库 手语翻译 低资源语言 数据集构建

📋 核心要点

  1. 阿拉伯语等低资源手语缺乏公开数据集,限制了相关研究进展,叙利亚阿拉伯语手语(SyArSL)领域尤其如此。
  2. 论文构建了包含1500个视频样本的SyriSign数据集,每个样本对应一个阿拉伯语文本及其对应的SyArSL手语视频。
  3. 研究使用MotionCLIP、T2M-GPT和SignCLIP三种模型评估了数据集,结果表明生成模型潜力巨大,但数据集规模限制了模型泛化能力。

📝 摘要(中文)

本文介绍了SyriSign,一个为文本到叙利亚阿拉伯语手语(SyArSL)翻译任务设计的包含1500个视频样本的数据集,涵盖150个独特的词汇符号。由于叙利亚聋人群体难以获取以口语或书面阿拉伯语呈现的新闻,该研究旨在减少叙利亚的交流障碍。研究者使用三种深度学习架构评估了SyriSign:用于语义运动生成的MotionCLIP、用于文本条件运动合成的T2M-GPT以及用于双语嵌入对齐的SignCLIP。实验结果表明,生成方法在手语表示方面显示出强大的潜力,但有限的数据集大小限制了泛化性能。SyriSign将公开发布,希望它能作为一个初始基准。

🔬 方法详解

问题定义:目前缺乏叙利亚阿拉伯语手语(SyArSL)的公开数据集,这阻碍了阿拉伯语文本到SyArSL的自动翻译研究。聋人群体主要通过手语进行交流,而新闻等信息通常以书面或口语阿拉伯语呈现,导致信息获取困难。现有方法难以直接应用于SyArSL,因为缺乏相应的训练数据。

核心思路:论文的核心思路是构建一个高质量的阿拉伯语文本到SyArSL的平行语料库,即SyriSign数据集。通过提供文本和对应手语视频的配对数据,可以训练深度学习模型,实现自动翻译。数据集的构建旨在填补SyArSL资源的空白,并为后续研究提供基准。

技术框架:该研究主要分为两个阶段:数据集构建和模型评估。数据集构建阶段,收集并整理了1500个视频样本,每个样本包含阿拉伯语文本和对应的SyArSL手语视频。模型评估阶段,使用了三种深度学习模型:MotionCLIP(用于语义运动生成)、T2M-GPT(用于文本条件运动合成)和SignCLIP(用于双语嵌入对齐)。这些模型分别从不同角度评估了SyriSign数据集的质量和适用性。

关键创新:该论文的关键创新在于构建了首个公开可用的叙利亚阿拉伯语手语数据集SyriSign。此前,该领域缺乏相关资源,SyriSign的发布填补了这一空白,为后续研究提供了基础。此外,研究者还探索了三种不同的深度学习模型在SyArSL翻译任务中的应用,为未来的模型选择和优化提供了参考。

关键设计:数据集包含150个独特的词汇符号,每个符号对应多个视频样本,以增加数据的多样性。在模型评估方面,研究者选择了MotionCLIP、T2M-GPT和SignCLIP三种具有代表性的模型,分别关注运动生成、文本条件合成和跨模态对齐。具体参数设置和损失函数等细节在论文中未详细说明,属于模型本身的默认配置或根据具体实验进行调整。

📊 实验亮点

实验结果表明,MotionCLIP、T2M-GPT和SignCLIP等模型在SyriSign数据集上表现出一定的潜力,尤其是在手语表示方面。尽管由于数据集规模的限制,模型的泛化性能受到一定影响,但这些初步结果验证了SyriSign数据集的有效性,并为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于开发阿拉伯语文本到叙利亚阿拉伯语手语的自动翻译系统,帮助叙利亚聋人群体更方便地获取信息,例如新闻、教育资料等。此外,该数据集也可用于手语识别、手语教学等领域,促进手语研究和应用的发展,提升聋人群体的社会参与度。

📄 摘要(原文)

Sign language is the primary approach of communication for the Deaf and Hard-of-Hearing (DHH) community. While there are numerous benchmarks for high-resource sign languages, low-resource languages like Arabic remain underrepresented. Currently, there is no publicly available dataset for Syrian Arabic Sign Language (SyArSL). To overcome this gap, we introduce SyriSign, a dataset comprising 1500 video samples across 150 unique lexical signs, designed for text-to-SyArSL translation tasks. This work aims to reduce communication barriers in Syria, as most news are delivered in spoken or written Arabic, which is often inaccessible to the deaf community. We evaluated SyriSign using three deep learning architectures: MotionCLIP for semantic motion generation, T2M-GPT for text-conditioned motion synthesis, and SignCLIP for bilingual embedding alignment. Experimental results indicate that while generative approaches show strong potential for sign representation, the limited dataset size constrains generalization performance. We will release SyriSign publicly, hoping it serves as an initial benchmark.