Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization
作者: Lee Kezar, Zed Sehyr, Jesse Thomason
分类: cs.CL, cs.CV
发布日期: 2025-09-05
💡 一句话要点
提出基于音位表征学习的孤立手语识别模型,提升未见手语的泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 手语识别 音位表征学习 向量量化 自编码器 泛化能力 半监督学习 参数解耦
📋 核心要点
- 现有手语识别模型在词汇泛化性方面存在不足,难以有效识别未见过的手语。
- 论文提出一种基于音位信息的向量量化自编码器,通过参数解耦和半监督学习来提升模型泛化能力。
- 实验结果表明,该模型在未见手语的单样本重建和手语识别方面均优于基线模型。
📝 摘要(中文)
手语数据集通常在词汇方面不具有代表性,这突显了模型泛化到未见手语的需求。向量量化是学习离散的、类似token的表征的一种有前景的方法,但尚未评估学习到的单元是否捕获了阻碍词汇外性能的虚假相关性。本研究调查了两种音位归纳偏置:参数解耦(一种架构偏置)和音位半监督(一种正则化技术),以提高已知手语的孤立手语识别和未见手语的重建质量,模型基于向量量化自编码器。主要发现是,与受控基线相比,所提出的模型学习到的表征对于未见手语的单样本重建更有效,并且对于手语识别更具区分性。这项工作对显式的、语言学动机的偏置如何提高手语学习表征的泛化能力进行了定量分析。
🔬 方法详解
问题定义:现有手语识别模型在面对词汇量有限的数据集时,难以泛化到未见过的手语。现有的向量量化方法可能学习到数据集中存在的虚假相关性,从而阻碍了模型在词汇外数据的性能。因此,需要一种能够学习到更具泛化性的手语表征的方法。
核心思路:论文的核心思路是利用手语的音位学信息作为归纳偏置,指导模型学习更具结构化的表征。通过参数解耦和音位半监督学习,模型能够更好地捕捉手语的基本构成单元,从而提高对未见手语的泛化能力。这种方法借鉴了语音识别中利用音素进行建模的思想,将其应用于手语识别领域。
技术框架:该模型基于向量量化自编码器(VQ-VAE)。首先,输入手语视频帧序列,通过编码器将其映射到潜在空间。然后,使用向量量化层将连续的潜在向量离散化为离散的码本索引。解码器根据这些索引重建原始手语视频。为了引入音位信息,论文采用了两种策略:参数解耦和音位半监督学习。
关键创新:该论文的关键创新在于将音位学信息引入到手语表征学习中,并提出了两种有效的实现方式:参数解耦和音位半监督学习。参数解耦通过限制模型的参数共享,鼓励模型学习独立的音位特征。音位半监督学习利用少量的音位标注数据,指导模型学习与音位相关的表征。这两种方法都旨在减少模型对训练数据中虚假相关性的依赖,从而提高泛化能力。
关键设计:参数解耦的具体实现方式是将编码器和解码器分解为多个模块,每个模块负责处理特定的音位特征。这些模块之间的参数不共享,从而鼓励模型学习独立的音位表征。音位半监督学习通过添加一个辅助损失函数来实现,该损失函数衡量模型预测的音位标签与真实标签之间的差异。该损失函数只在少量标注数据上计算,但可以有效地引导模型学习与音位相关的表征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的模型在未见手语的单样本重建和手语识别方面均优于基线模型。具体来说,该模型在单样本重建任务上的性能提升了显著幅度,表明其学习到的表征能够更好地捕捉未见手语的结构信息。此外,该模型在手语识别任务上的准确率也高于基线模型,验证了其学习到的表征更具区分性。
🎯 应用场景
该研究成果可应用于手语翻译、手语教学、人机交互等领域。通过提高手语识别模型的泛化能力,可以更好地理解和生成手语,促进聋哑人与健听人之间的交流。此外,该方法还可以应用于其他低资源语言的识别和生成任务。
📄 摘要(原文)
Sign language datasets are often not representative in terms of vocabulary, underscoring the need for models that generalize to unseen signs. Vector quantization is a promising approach for learning discrete, token-like representations, but it has not been evaluated whether the learned units capture spurious correlations that hinder out-of-vocabulary performance. This work investigates two phonological inductive biases: Parameter Disentanglement, an architectural bias, and Phonological Semi-Supervision, a regularization technique, to improve isolated sign recognition of known signs and reconstruction quality of unseen signs with a vector-quantized autoencoder. The primary finding is that the learned representations from the proposed model are more effective for one-shot reconstruction of unseen signs and more discriminative for sign identification compared to a controlled baseline. This work provides a quantitative analysis of how explicit, linguistically-motivated biases can improve the generalization of learned representations of sign language.