Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization

📄 arXiv: 2509.04745v1 📥 PDF

作者: Lee Kezar, Zed Sehyr, Jesse Thomason

分类: cs.CL, cs.CV

发布日期: 2025-09-05


💡 一句话要点

提出基于音位表征学习的孤立手语识别模型,提升未见手语的泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 手语识别 音位表征学习 向量量化 自编码器 泛化能力 参数解耦 音位半监督

📋 核心要点

  1. 手语识别模型面临词汇量不足的挑战,难以泛化到未见过的手语。
  2. 论文提出结合参数解耦和音位半监督的音位归纳偏置方法,提升模型泛化能力。
  3. 实验表明,该模型在未见手语的单样本重建和手语识别方面优于基线模型。

📝 摘要(中文)

手语数据集通常在词汇方面不具有代表性,这突显了模型泛化到未见手语的需求。向量量化是一种有前景的离散、类token表征学习方法,但尚未评估学习到的单元是否捕获了阻碍词汇外性能的虚假相关性。本研究调查了两种音位归纳偏置:参数解耦(一种架构偏置)和音位半监督(一种正则化技术),以改进已知手语的孤立手语识别和未见手语的重建质量,模型基于向量量化自编码器。主要发现是,与受控基线相比,所提出模型学习到的表征对于未见手语的单样本重建更有效,并且对于手语识别更具区分性。这项工作对显式的、语言学动机的偏置如何提高手语学习表征的泛化能力进行了定量分析。

🔬 方法详解

问题定义:现有手语识别模型在面对词汇量有限的数据集时,泛化能力较差,难以识别未见过的手语。现有方法可能学习到数据集中存在的虚假相关性,导致模型过度拟合已知手语,而无法有效处理新出现的手语。

核心思路:论文的核心思路是引入音位归纳偏置,通过参数解耦和音位半监督的方式,使模型学习到更具泛化能力的音位表征。这种表征能够更好地捕捉手语的本质特征,从而提高模型在未见手语上的识别和重建能力。

技术框架:该模型基于向量量化自编码器(VQ-VAE)。首先,输入手语视频经过编码器得到连续的特征向量。然后,使用向量量化层将连续特征向量映射到离散的码本索引。解码器则根据这些离散索引重建手语视频。为了引入音位归纳偏置,模型采用了参数解耦和音位半监督两种技术。

关键创新:该论文的关键创新在于将音位学的知识融入到手语识别模型的学习过程中。通过参数解耦,模型能够学习到独立的音位特征表示。音位半监督则利用音位信息作为正则化项,引导模型学习更符合语言学规律的表征。这种结合语言学知识的表征学习方法,能够有效提高模型的泛化能力。

关键设计:参数解耦的具体实现方式是,将编码器和解码器的部分参数进行分组,每组参数负责学习一种特定的音位特征。音位半监督则通过一个辅助的音位分类器来实现。该分类器以编码器的输出作为输入,预测手语视频对应的音位序列。音位分类器的损失函数被添加到总损失函数中,作为正则化项。损失函数包括重建损失、量化损失和音位分类损失。

📊 实验亮点

实验结果表明,该模型在未见手语的单样本重建任务上取得了显著的提升,重建质量优于基线模型。此外,在手语识别任务中,该模型也表现出更强的区分能力,能够更准确地识别不同的手语。具体性能提升数据在论文中给出。

🎯 应用场景

该研究成果可应用于手语翻译、手语教学、人机交互等领域。通过提高手语识别模型的泛化能力,可以更好地理解和处理各种手语表达,促进聋哑人与健听人之间的交流。未来,该技术有望应用于智能助听设备、手语输入法等产品,为聋哑人提供更便捷的生活服务。

📄 摘要(原文)

Sign language datasets are often not representative in terms of vocabulary, underscoring the need for models that generalize to unseen signs. Vector quantization is a promising approach for learning discrete, token-like representations, but it has not been evaluated whether the learned units capture spurious correlations that hinder out-of-vocabulary performance. This work investigates two phonological inductive biases: Parameter Disentanglement, an architectural bias, and Phonological Semi-Supervision, a regularization technique, to improve isolated sign recognition of known signs and reconstruction quality of unseen signs with a vector-quantized autoencoder. The primary finding is that the learned representations from the proposed model are more effective for one-shot reconstruction of unseen signs and more discriminative for sign identification compared to a controlled baseline. This work provides a quantitative analysis of how explicit, linguistically-motivated biases can improve the generalization of learned representations of sign language.