SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning
作者: Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden
分类: cs.CV
发布日期: 2026-03-11
💡 一句话要点
SignSparK:通过稀疏关键帧学习实现高效的多语种手语生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation)
关键词: 手语生成 关键帧学习 条件流匹配 多语种 3D人体姿势 SMPL-X MANO
📋 核心要点
- 现有手语生成方法在自然度和流畅性上存在不足,直接回归模型易产生均值化效应,检索方法则过渡僵硬。
- SignSparK利用稀疏关键帧作为锚点,预测密集运动,从而捕捉人类手语的真实运动学分布,保证流畅性。
- SignSparK集成了FAST手语分割模型和条件流匹配框架,实现了多语种手语生成,并在多个任务上取得了SOTA结果。
📝 摘要(中文)
生成自然且语言学上准确的手语化身仍然是一个巨大的挑战。目前的手语生成(SLP)框架面临着严峻的权衡:直接的文本到姿势模型受到回归到均值效应的影响,而字典检索方法产生机械的、不连贯的过渡。为了解决这个问题,我们提出了一种新的训练范式,该范式利用稀疏关键帧来捕捉人类手语的真实底层运动学分布。通过从这些离散锚点预测密集运动,我们的方法减轻了回归到均值的影响,同时确保了流畅的表达。为了大规模地实现这种范式,我们首先引入FAST,一种超高效的手语分割模型,可以自动挖掘精确的时间边界。然后,我们提出了SignSparK,一个大规模的条件流匹配(CFM)框架,它利用这些提取的锚点来合成SMPL-X和MANO空间中的3D手语序列。这种关键帧驱动的公式也独特地解锁了关键帧到姿势(KF2P)的生成,使得对手语序列进行精确的时空编辑成为可能。此外,我们采用的基于重建的CFM目标还能够在少于十个采样步骤中实现高保真合成;这使得SignSparK能够跨越四种不同的手语进行扩展,从而建立了迄今为止最大的多语种SLP框架。最后,通过集成3D高斯溅射进行照片级真实感渲染,我们通过广泛的评估证明,SignSparK在不同的SLP任务和多语种基准测试中建立了一个新的最先进水平。
🔬 方法详解
问题定义:现有手语生成方法主要存在两个问题。一是直接使用文本到姿势的回归模型,容易产生“回归到均值”的现象,导致生成的动作不够生动自然。二是基于字典检索的方法,虽然可以保证动作的准确性,但不同动作之间的过渡非常僵硬,缺乏流畅性。
核心思路:SignSparK的核心思路是利用稀疏关键帧来表示手语动作。关键帧能够捕捉动作的关键姿态,而通过从这些关键帧预测密集运动,可以避免直接回归带来的均值化问题,同时保证动作的流畅性。这种方法既能保证动作的准确性,又能提高动作的自然度。
技术框架:SignSparK的整体框架包括以下几个主要模块:1) FAST手语分割模型:用于自动提取手语视频中的关键帧。2) 条件流匹配(CFM)框架:用于从关键帧生成3D手语序列。该框架以关键帧为条件,生成SMPL-X和MANO空间中的3D姿势序列。3) 关键帧到姿势(KF2P)生成模块:允许用户对关键帧进行编辑,从而实现对整个手语序列的精确时空控制。4) 3D高斯溅射渲染模块:用于生成照片级真实感的手语化身。
关键创新:SignSparK的关键创新在于其关键帧驱动的生成范式。与直接回归或检索的方法不同,SignSparK通过学习稀疏关键帧来捕捉手语动作的底层运动学分布。这种方法能够有效地减轻回归到均值的影响,并保证动作的流畅性。此外,SignSparK还引入了FAST手语分割模型,实现了关键帧的自动提取,大大提高了系统的效率。
关键设计:SignSparK采用了条件流匹配(CFM)作为其生成框架。CFM是一种基于流的生成模型,能够生成高质量的样本。SignSparK使用基于重建的CFM目标函数,能够在较少的采样步骤中实现高保真合成。此外,SignSparK还使用了SMPL-X和MANO模型来表示3D人体姿势,这些模型能够提供更精细的人体形状和姿势控制。
🖼️ 关键图片
📊 实验亮点
SignSparK在多项手语生成任务上取得了显著的性能提升,并在多语种基准测试中达到了最先进水平。该模型能够在少于十个采样步骤中实现高保真合成,并支持四种不同的手语。通过集成3D高斯溅射渲染,SignSparK能够生成照片级真实感的手语化身。
🎯 应用场景
SignSparK具有广泛的应用前景,可用于创建手语教学视频、手语翻译工具、虚拟手语助手等。该技术能够帮助听力障碍者更好地获取信息和进行交流,促进社会共融。未来,SignSparK有望应用于游戏、社交媒体等领域,为用户提供更丰富的互动体验。
📄 摘要(原文)
Generating natural and linguistically accurate sign language avatars remains a formidable challenge. Current Sign Language Production (SLP) frameworks face a stark trade-off: direct text-to-pose models suffer from regression-to-the-mean effects, while dictionary-retrieval methods produce robotic, disjointed transitions. To resolve this, we propose a novel training paradigm that leverages sparse keyframes to capture the true underlying kinematic distribution of human signing. By predicting dense motion from these discrete anchors, our approach mitigates regression-to-the-mean while ensuring fluid articulation. To realize this paradigm at scale, we first introduce FAST, an ultra-efficient sign segmentation model that automatically mines precise temporal boundaries. We then present SignSparK, a large-scale Conditional Flow Matching (CFM) framework that utilizes these extracted anchors to synthesize 3D signing sequences in SMPL-X and MANO spaces. This keyframe-driven formulation also uniquely unlocks Keyframe-to-Pose (KF2P) generation, making precise spatiotemporal editing of signing sequences possible. Furthermore, our adopted reconstruction-based CFM objective also enables high-fidelity synthesis in fewer than ten sampling steps; this allows SignSparK to scale across four distinct sign languages, establishing the largest multilingual SLP framework to date. Finally, by integrating 3D Gaussian Splatting for photorealistic rendering, we demonstrate through extensive evaluation that SignSparK establishes a new state-of-the-art across diverse SLP tasks and multilingual benchmarks.