DiffSign: AI-Assisted Generation of Customizable Sign Language Videos With Enhanced Realism

📄 arXiv: 2412.03878v1 📥 PDF

作者: Sudha Krishnamurthy, Vimal Bhat, Abhinav Jain

分类: cs.CV

发布日期: 2024-12-05

备注: Published in Proceedings of ECCV, Workshop on Assistive Computer Vision and Robotics, 2024


💡 一句话要点

DiffSign:利用AI生成具有增强真实感的可定制手语视频

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手语生成 扩散模型 参数化建模 视觉适配器 听障辅助 姿势重定向 3D化身

📋 核心要点

  1. 现有方法难以生成具有足够真实感和可定制性的手语视频,限制了听障人士获取媒体内容的便利性。
  2. DiffSign结合参数化建模和生成建模,利用扩散模型生成逼真的合成手语者,并通过视觉提示定制其外观。
  3. 实验表明,DiffSign生成的手语视频在时间一致性和真实感方面优于基于文本提示的扩散模型,并支持多模态提示。

📝 摘要(中文)

近年来流媒体服务的激增使得全球不同受众能够观看相同的媒体内容,如电影或电视节目。虽然翻译和配音服务不断增加,以使内容能够被本地受众访问,但为听障人士(DHH)群体提供内容可访问性的支持仍然滞后。我们的目标是通过生成具有逼真且富有表现力的合成手语者,使媒体内容更容易被DHH群体访问。针对同一媒体内容使用相同的手语者在全球范围内可能吸引力有限。因此,我们的方法结合了参数化建模和生成建模,以生成逼真的合成手语者,并根据用户偏好定制其外观。我们首先通过优化参数化模型将人类手语姿势重新定位到3D手语化身。然后,来自渲染化身的高保真姿势被用于调节使用基于扩散的生成模型生成的合成手语者的姿势。合成手语者的外观由通过视觉适配器提供的图像提示控制。我们的结果表明,使用我们的方法生成的手语视频比仅以文本提示为条件的扩散模型生成的手语视频具有更好的时间一致性和真实感。我们还支持多模态提示,以允许用户进一步定制手语者的外观以适应多样性(例如,肤色、性别)。我们的方法对于手语者匿名化也很有用。

🔬 方法详解

问题定义:论文旨在解决为听障人士生成高质量、可定制的手语视频的问题。现有方法生成的合成手语视频通常真实感不足,难以满足不同用户的个性化需求,并且缺乏时间一致性,影响观看体验。

核心思路:论文的核心思路是将参数化建模与生成建模相结合。首先,利用参数化模型将人类手语姿势迁移到3D手语化身,获得高保真姿势。然后,使用这些姿势作为条件,驱动基于扩散模型的生成过程,生成具有逼真外观的合成手语者。通过视觉适配器,用户可以提供图像提示来控制手语者的外观,实现个性化定制。

技术框架:DiffSign的整体框架包含以下几个主要阶段:1) 姿势重定向:将人类手语姿势映射到3D手语化身。2) 扩散模型生成:使用扩散模型生成合成手语者,姿势由重定向后的3D化身姿势调节。3) 外观定制:通过视觉适配器,使用图像提示控制合成手语者的外观。

关键创新:DiffSign的关键创新在于将参数化建模与扩散模型相结合,实现了对合成手语者姿势和外观的精细控制。与直接使用文本提示驱动扩散模型相比,DiffSign利用3D化身姿势作为条件,显著提高了生成视频的时间一致性和真实感。此外,视觉适配器的引入使得用户可以根据自己的偏好定制手语者的外观,增强了系统的灵活性和实用性。

关键设计:论文使用了基于扩散模型的生成器,并采用视觉适配器来融合图像提示信息。具体的扩散模型结构和训练细节未知。参数化模型用于将人类姿势映射到3D化身,具体实现方式未知。损失函数的设计可能包括对抗损失、感知损失以及姿势一致性损失,以保证生成视频的真实感和时间一致性。视觉适配器的具体结构和训练方式也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiffSign生成的手语视频在时间一致性和真实感方面优于基于文本提示的扩散模型。具体性能数据未知,但论文强调了DiffSign在生成高质量手语视频方面的优势,并支持多模态提示以实现更精细的定制。

🎯 应用场景

DiffSign可应用于在线教育、媒体内容本地化、虚拟助手等领域,为听障人士提供更便捷、个性化的信息获取方式。该技术还有助于手语教学和研究,促进手语的推广和发展。此外,DiffSign的手语者匿名化功能可用于保护手语者的隐私。

📄 摘要(原文)

The proliferation of several streaming services in recent years has now made it possible for a diverse audience across the world to view the same media content, such as movies or TV shows. While translation and dubbing services are being added to make content accessible to the local audience, the support for making content accessible to people with different abilities, such as the Deaf and Hard of Hearing (DHH) community, is still lagging. Our goal is to make media content more accessible to the DHH community by generating sign language videos with synthetic signers that are realistic and expressive. Using the same signer for a given media content that is viewed globally may have limited appeal. Hence, our approach combines parametric modeling and generative modeling to generate realistic-looking synthetic signers and customize their appearance based on user preferences. We first retarget human sign language poses to 3D sign language avatars by optimizing a parametric model. The high-fidelity poses from the rendered avatars are then used to condition the poses of synthetic signers generated using a diffusion-based generative model. The appearance of the synthetic signer is controlled by an image prompt supplied through a visual adapter. Our results show that the sign language videos generated using our approach have better temporal consistency and realism than signing videos generated by a diffusion model conditioned only on text prompts. We also support multimodal prompts to allow users to further customize the appearance of the signer to accommodate diversity (e.g. skin tone, gender). Our approach is also useful for signer anonymization.