Bidirectional Learned Facial Animation Codec for Low Bitrate Talking Head Videos

📄 arXiv: 2503.09787v1 📥 PDF

作者: Riku Takahashi, Ryugo Morita, Fuma Kimishima, Kosuke Iwama, Jinjia Zhou

分类: eess.IV, cs.CV

发布日期: 2025-03-12

备注: Accepted to DCC2025


💡 一句话要点

提出双向学习面部动画编解码器以解决低比特率视频问题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 面部动画 视频编码 深度学习 比特率优化 生成模型 虚拟现实 视频重建

📋 核心要点

  1. 现有方法依赖单一关键帧,难以准确捕捉大幅度头部运动,导致面部区域失真。
  2. 本文提出双向学习动画编解码器,通过自适应选择过去和未来的关键帧来生成自然面部视频。
  3. 实验结果显示,本文方法在谈话头视频数据集上比最新的编码器减少55%比特率,提升视频质量。

📝 摘要(中文)

现有的深度面部动画编码技术通过应用深度生成模型有效压缩谈话头视频。这些方法主要集中在压缩关键帧和非关键帧的关键点上,然而,它们依赖单一关键帧,难以准确捕捉大幅度头部运动,导致面部区域失真。本文提出了一种新颖的双向学习动画编解码器,利用过去和未来的关键帧生成自然的面部视频。通过引入紧凑的辅助流并自适应选择关键帧,显著提高了视频质量,同时减少了比特率。实验表明,与最新的动画视频编解码器相比,本文方法减少了55%的比特率,并与最新的视频编码标准VVC相比减少了35%。

🔬 方法详解

问题定义:现有的面部动画编码方法主要依赖单一关键帧进行视频压缩,导致在处理大幅度头部运动时出现失真和质量下降。

核心思路:本文提出的双向学习动画编解码器通过结合过去和未来的关键帧,利用自适应选择的辅助流来增强非关键帧的质量,从而提高视频的整体表现。

技术框架:整体架构包括两个主要模块:双向参考引导辅助流增强(BRG-ASE)和双向参考引导视频重建(BRG-VRec)。BRG-ASE模块通过选择过去或未来的关键帧来增强辅助流,而BRG-VRec模块则利用增强后的关键帧和辅助流重建目标帧。

关键创新:最重要的创新在于引入了双向参考机制,通过同时利用过去和未来的关键帧来改善视频质量,这与传统的单向方法形成鲜明对比。

关键设计:在设计中,辅助流的选择是自适应的,且在BRG-ASE过程中仅略微增加比特率。此外,损失函数的设计考虑了视频质量和比特率之间的平衡,确保了重建效果的优越性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,提出的方法在谈话头视频数据集上实现了55%的比特率减少,相较于最新的动画视频编解码器,且与最新的视频编码标准VVC相比减少了35%。这些结果表明,本文方法在提高视频质量的同时,显著降低了数据传输需求。

🎯 应用场景

该研究在虚拟现实、动画制作和视频会议等领域具有广泛的应用潜力。通过提高低比特率视频的质量,能够为用户提供更流畅和自然的视觉体验,推动相关技术的发展和应用。未来,该方法还可能在实时视频传输和社交媒体内容生成中发挥重要作用。

📄 摘要(原文)

Existing deep facial animation coding techniques efficiently compress talking head videos by applying deep generative models. Instead of compressing the entire video sequence, these methods focus on compressing only the keyframe and the keypoints of non-keyframes (target frames). The target frames are then reconstructed by utilizing a single keyframe, and the keypoints of the target frame. Although these unidirectional methods can reduce the bitrate, they rely on a single keyframe and often struggle to capture large head movements accurately, resulting in distortions in the facial region. In this paper, we propose a novel bidirectional learned animation codec that generates natural facial videos using past and future keyframes. First, in the Bidirectional Reference-Guided Auxiliary Stream Enhancement (BRG-ASE) process, we introduce a compact auxiliary stream for non-keyframes, which is enhanced by adaptively selecting one of two keyframes (past and future). This stream improves video quality with a slight increase in bitrate. Then, in the Bidirectional Reference-Guided Video Reconstruction (BRG-VRec) process, we animate the adaptively selected keyframe and reconstruct the target frame using both the animated keyframe and the auxiliary frame. Extensive experiments demonstrate a 55% bitrate reduction compared to the latest animation based video codec, and a 35% bitrate reduction compared to the latest video coding standard, Versatile Video Coding (VVC) on a talking head video dataset. It showcases the efficiency of our approach in improving video quality while simultaneously decreasing bitrate.