Toward Phonology-Guided Sign Language Motion Generation: A Diffusion Baseline and Conditioning Analysis

📄 arXiv: 2603.17388v1 📥 PDF

作者: Rui Hong, Jana Kosecka

分类: cs.CV

发布日期: 2026-03-18

备注: 8 pages, 4 figures


💡 一句话要点

提出基于扩散模型的音系学引导手语动作生成方法,显著提升生成质量。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 手语生成 扩散模型 音系学属性 文本编码器 条件作用 3D动作生成 SMPL-X

📋 核心要点

  1. 现有手语生成方法难以生成自然流畅且准确的3D虚拟形象动作,尤其是在利用文本信息进行条件控制时。
  2. 本文提出一种基于扩散模型的生成框架,并深入研究了音系学属性(如手形、位置等)对手语生成的影响。
  3. 实验表明,该方法在语素可区分性等指标上优于现有方法,并揭示了输入表示形式对文本编码器性能的关键作用。

📝 摘要(中文)

本文致力于解决基于文本输入生成自然、正确且视觉流畅的3D虚拟形象手语动作这一难题。我们训练了一个3D身体动作生成模型,并探索了音系属性条件作用在手语动作生成中的作用,使用了ASL-LEX 2.0的标注信息,如手形、手部位置和运动。首先,我们建立了一个强大的扩散模型基线,采用Human Motion MDM风格的扩散模型和SMPL-X表示,在语素可区分性指标上优于最先进的CVAE方法SignAvatar。然后,我们系统地研究了文本条件作用的作用,使用了不同的文本编码器(CLIP vs. T5)、条件作用模式(仅语素 vs. 语素+音系属性)和属性表示格式(符号 vs. 自然语言)。我们的分析表明,将符号化的ASL-LEX标注转换为自然语言是基于CLIP的属性条件作用的必要条件,而T5在很大程度上不受这种转换的影响。此外,我们表现最佳的变体(使用映射属性的CLIP)在所有指标上都优于SignAvatar。这些发现强调了输入表示是基于文本编码器的属性条件作用的关键因素,并激发了结构化的条件作用方法,其中语素和音系属性通过独立的途径进行编码。

🔬 方法详解

问题定义:论文旨在解决手语动作生成中,如何利用文本信息(特别是音系学属性)来生成更自然、更准确的3D虚拟形象动作的问题。现有方法,如SignAvatar,在生成动作的自然性和准确性方面存在不足,尤其是在处理复杂的音系学信息时表现不佳。

核心思路:论文的核心思路是利用扩散模型强大的生成能力,并结合手语的音系学特征,通过条件作用的方式引导模型生成更符合手语规则的动作。同时,研究不同的文本编码器和属性表示方式对生成效果的影响,从而找到最佳的条件作用策略。

技术框架:整体框架基于Human Motion MDM风格的扩散模型,使用SMPL-X表示3D人体姿态。框架包含以下主要模块:1) 文本编码器(CLIP或T5)用于提取文本特征;2) 扩散模型用于生成3D动作序列;3) 条件作用模块,将文本特征融入扩散模型的生成过程中。研究中对比了不同的条件作用模式,包括仅使用语素信息和同时使用语素和音系属性信息。

关键创新:论文的关键创新在于对手语生成中音系学属性条件作用的深入研究。通过对比不同的文本编码器和属性表示方式,揭示了输入表示形式对文本编码器性能的关键影响。特别地,发现将符号化的ASL-LEX标注转换为自然语言是基于CLIP的属性条件作用的必要条件。

关键设计:论文的关键设计包括:1) 使用Human Motion MDM风格的扩散模型,该模型在人体动作生成方面表现出色;2) 对比CLIP和T5两种文本编码器,研究它们在手语生成中的适用性;3) 系统地研究不同的条件作用模式和属性表示方式,包括符号化表示和自然语言表示;4) 使用ASL-LEX 2.0数据集,该数据集包含丰富的手语标注信息,包括手形、手部位置和运动等。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

实验结果表明,基于扩散模型的方法在语素可区分性指标上优于SignAvatar等现有方法。特别地,使用CLIP编码器并结合自然语言形式的音系属性信息时,模型性能达到最佳,在所有指标上都超越了SignAvatar。这表明合适的文本编码器和属性表示方式对于手语动作生成至关重要。

🎯 应用场景

该研究成果可应用于虚拟手语翻译、手语教学、人机交互等领域。通过生成自然流畅的3D手语动作,可以帮助听障人士更好地理解信息,促进无障碍交流。未来,该技术有望应用于智能客服、游戏、动画等领域,提升用户体验。

📄 摘要(原文)

Generating natural, correct, and visually smooth 3D avatar sign language motion conditioned on the text inputs continues to be very challenging. In this work, we train a generative model of 3D body motion and explore the role of phonological attribute conditioning for sign language motion generation, using ASL-LEX 2.0 annotations such as hand shape, hand location and movement. We first establish a strong diffusion baseline using an Human Motion MDM-style diffusion model with SMPL-X representation, which outperforms SignAvatar, a state-of-the-art CVAE method, on gloss discriminability metrics. We then systematically study the role of text conditioning using different text encoders (CLIP vs. T5), conditioning modes (gloss-only vs. gloss+phonological attributes), and attribute notation format (symbolic vs. natural language). Our analysis reveals that translating symbolic ASL-LEX notations to natural language is a necessary condition for effective CLIP-based attribute conditioning, while T5 is largely unaffected by this translation. Furthermore, our best-performing variant (CLIP with mapped attributes) outperforms SignAvatar across all metrics. These findings highlight input representation as a critical factor for text-encoder-based attribute conditioning, and motivate structured conditioning approaches where gloss and phonological attributes are encoded through independent pathways.