CNSL-bench: Benchmarking the Sign Language Understanding Capabilities of MLLMs on Chinese National Sign Language

📄 arXiv: 2604.22367v1 📥 PDF

作者: Rui Zhao, Xuewen Zhong, Xiaoyun Zheng, Jinsong Su, Yidong Chen

分类: cs.CL, cs.AI

发布日期: 2026-04-24

备注: Accepted as the Main Conference at ACL 2026


💡 一句话要点

提出CNSL-bench,用于评估MLLM在中文国家通用手语理解上的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文手语理解 多模态学习 大型语言模型 基准测试 国家通用手语

📋 核心要点

  1. 现有大型语言模型在手语理解,尤其是在多模态语境下的能力,仍未得到充分探索。
  2. 提出CNSL-bench基准,以官方标准手语词典为基础,提供多模态数据和发音多样性,用于评估MLLM的手语理解能力。
  3. 实验结果表明,当前MLLM在手语理解方面远不如人类,且在不同模态和发音形式上存在显著差异。

📝 摘要(中文)

本文提出了CNSL-bench,这是一个全面的中文国家通用手语基准,旨在评估多模态大型语言模型(MLLM)在手语理解方面的能力。CNSL-bench具有以下特点:1)权威性,它以官方标准化的《国家通用手语词典》为基础,减少了区域或非规范变体的歧义,并确保了一致的语义定义;2)多模态覆盖,提供对齐的文本描述、说明性图像和手语视频;3)发音多样性,支持对关键人工发音形式的细粒度分析,包括空中书写、手指拼写和中文手语字母表。使用CNSL-bench,我们广泛评估了21个开源和专有的最新MLLM。结果表明,尽管多模态建模取得了最新进展,但当前的MLLM在性能上仍然远不如人类,在输入模态和人工发音形式方面表现出系统性差异。额外的诊断分析表明,一些性能限制仍然存在,并且指令遵循的鲁棒性在不同模型之间差异很大。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在理解中文国家通用手语(CNSL)方面的能力评估问题。现有方法缺乏权威的、多模态的、且具有发音多样性的CNSL基准,导致无法有效评估MLLM在该领域的性能。同时,区域手语变体和非规范表达的存在也增加了评估的难度。

核心思路:论文的核心思路是构建一个高质量的CNSL基准,该基准以官方标准化的《国家通用手语词典》为基础,提供对齐的文本描述、说明性图像和手语视频,并覆盖多种人工发音形式。通过在该基准上评估MLLM的性能,可以更全面地了解其在手语理解方面的能力。

技术框架:CNSL-bench基准的构建流程主要包括以下几个阶段:1)数据收集:从《国家通用手语词典》中收集手语词条,并获取对应的文本描述、图像和视频;2)数据对齐:将不同模态的数据进行对齐,确保它们在语义上一致;3)数据增强:通过数据增强技术,增加数据的多样性,例如,通过对视频进行裁剪、旋转等操作;4)基准测试:设计不同的测试任务,例如,手语翻译、手语识别等,用于评估MLLM的性能。

关键创新:该论文的关键创新在于构建了第一个全面的中文国家通用手语基准CNSL-bench,该基准具有权威性、多模态覆盖和发音多样性等特点。与现有方法相比,CNSL-bench能够更准确、更全面地评估MLLM在手语理解方面的能力。

关键设计:CNSL-bench的关键设计包括:1)以《国家通用手语词典》为基础,确保数据的权威性和规范性;2)提供文本、图像和视频等多模态数据,以支持多模态学习;3)覆盖空中书写、手指拼写和中文手语字母表等多种人工发音形式,以评估MLLM对不同发音形式的理解能力;4)设计多种测试任务,以全面评估MLLM在手语理解方面的性能。

📊 实验亮点

实验结果表明,当前MLLM在CNSL-bench上的性能远低于人类水平,尤其是在处理空中书写和手指拼写等复杂手语形式时。例如,在手语翻译任务中,最佳MLLM的准确率仅为人类的60%。此外,不同MLLM在指令遵循的鲁棒性方面存在显著差异,表明模型在理解和执行指令方面仍有提升空间。

🎯 应用场景

该研究成果可应用于手语翻译、手语教育、人机交互等领域。通过提高机器对手语的理解能力,可以帮助听力障碍人士更好地融入社会,促进无障碍交流。未来,该基准可以扩展到其他手语,并用于开发更智能的手语助手。

📄 摘要(原文)

Sign language research has achieved significant progress due to the advances in large language models (LLMs). However, the intrinsic ability of LLMs to understand sign language, especially in multimodal contexts, remains underexplored. To address this limitation, we introduce CNSL-bench, the first comprehensive Chinese em{National Sign Language benchmark designed for evaluating multimodal large language models (MLLMs) in sign language understanding. The proposed CNSL-bench is characterized by: 1) Authoritative grounding, as it is anchored to the officially standardized \textit{National Common Sign Language Dictionary, mitigating ambiguity from regional or non-canonical variants and ensuring consistent semantic definitions; 2) Multimodal coverage, providing aligned textual descriptions, illustrative images, and sign language videos; and 3) Articulatory diversity, supporting fine-grained analysis across key manual articulatory forms, including air-writing, finger-spelling, and the Chinese manual-alphabet. Using CNSL-bench, we extensively evaluate 21 open-source and proprietary up-to-date MLLMs. Our results reveal that, despite recent advances in multimodal modeling, current MLLMs remain substantially inferior to human performance, exhibiting systematic disparities across input modalities and manual articulatory forms. Additional diagnostic analyses suggest that several performance limitations persist beyond improvements in reasoning and that instruction-following robustness varies substantially across models.