Sparse2Dense: A Keypoint-driven Generative Framework for Human Video Compression and Vertex Prediction

📄 arXiv: 2509.23169v1 📥 PDF

作者: Bolin Chen, Ru-Ling Liao, Yan Ye, Jie Chen, Shanzhi Yin, Xinrui Ju, Shiqi Wang, Yibo Fan

分类: cs.CV

发布日期: 2025-09-27


💡 一句话要点

Sparse2Dense:一种关键点驱动的生成框架,用于人体视频压缩和顶点预测

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 人体视频压缩 顶点预测 关键点驱动 生成模型 多任务学习 深度学习 低比特率 几何一致性

📋 核心要点

  1. 现有方法难以在超低比特率下同时实现人体视频压缩和精确的顶点预测,需要兼顾运动建模、外观合成和几何一致性。
  2. Sparse2Dense框架利用稀疏3D关键点作为传输符号,通过关键点驱动的生成模型,实现视频合成和顶点预测。
  3. 实验表明,Sparse2Dense在压缩性能上优于传统编解码器,并能为几何应用提供精确的顶点预测。

📝 摘要(中文)

本文提出了一种名为Sparse2Dense的关键点驱动生成框架,旨在解决带宽受限的多媒体应用中,超低比特率人体视频压缩和精确顶点预测的挑战。该框架利用极其稀疏的3D关键点作为紧凑的传输符号,实现超低比特率的人体视频压缩和精确的人体顶点预测。核心创新在于基于多任务学习和关键点感知的深度生成模型,该模型能够通过紧凑的3D关键点编码复杂的人体运动,并利用这些稀疏关键点估计密集运动,从而合成具有时间一致性和逼真纹理的视频。此外,还集成了一个顶点预测器,通过与视频生成联合优化来学习人体顶点几何结构,确保视觉内容和几何结构之间的一致性。实验结果表明,Sparse2Dense在人体视频压缩方面优于传统的/生成视频编解码器,同时能够为下游几何应用提供精确的人体顶点预测。

🔬 方法详解

问题定义:现有的人体视频压缩方法在低比特率下难以保持视频质量和几何结构的准确性。传统的编解码器无法有效利用人体运动的先验知识,而基于生成模型的方法通常计算复杂度高,难以实现实时应用。因此,如何在极低的比特率下实现高质量的人体视频压缩和精确的顶点预测是一个关键问题。

核心思路:Sparse2Dense的核心思路是利用人体骨骼关键点作为视频内容的稀疏表示,通过学习关键点到密集视频帧的映射关系,实现视频的压缩和重建。这种方法能够有效利用人体运动的结构化信息,降低传输的数据量,同时保持视频的视觉质量和几何一致性。关键点作为中间表示,连接了视频生成和顶点预测两个任务,实现了联合优化。

技术框架:Sparse2Dense框架主要包含两个模块:视频生成模块和顶点预测模块。视频生成模块以稀疏的3D关键点作为输入,通过一个多任务学习的深度生成模型,生成具有时间一致性和逼真纹理的视频帧。顶点预测模块则利用相同的关键点信息,预测人体网格模型的顶点坐标。这两个模块通过联合优化,共享关键点表示,从而保证视觉内容和几何结构的一致性。整体流程是从输入视频中提取关键点,将关键点进行压缩和传输,然后在接收端利用Sparse2Dense框架进行视频重建和顶点预测。

关键创新:Sparse2Dense的关键创新在于提出了一种关键点驱动的生成框架,将人体视频压缩和顶点预测两个任务统一到一个框架中。与传统的视频编解码器相比,Sparse2Dense能够利用人体运动的结构化信息,实现更高效的压缩。与现有的基于生成模型的视频压缩方法相比,Sparse2Dense通过关键点作为中间表示,降低了计算复杂度,并实现了视频生成和顶点预测的联合优化。

关键设计:在视频生成模块中,采用了多任务学习策略,同时预测视频帧和光流信息,以提高视频的时间一致性。在顶点预测模块中,采用了图卷积网络(GCN)来学习人体网格模型的结构信息。损失函数包括视频重建损失、光流损失和顶点预测损失,通过联合优化这些损失函数,实现视频生成和顶点预测的协同训练。关键点的提取使用了现成的姿态估计模型,例如OpenPose。

📊 实验亮点

实验结果表明,Sparse2Dense在人体视频压缩方面取得了显著的性能提升,在相同比特率下,视频质量优于传统的H.264和H.265编解码器,以及基于生成模型的视频压缩方法。同时,Sparse2Dense能够为下游几何应用提供精确的人体顶点预测,顶点预测的准确率优于现有的顶点预测方法。具体的性能数据和对比基线在论文中有详细的展示。

🎯 应用场景

Sparse2Dense框架在带宽受限的人体中心媒体传输方面具有广泛的应用前景,例如实时运动分析、虚拟人动画和沉浸式娱乐。它可以用于远程会议、在线教育、虚拟现实和增强现实等场景,在这些场景中,需要传输人体运动信息,但带宽资源有限。通过Sparse2Dense,可以实现低带宽下的高质量人体视频传输和精确的顶点预测,从而提升用户体验。

📄 摘要(原文)

For bandwidth-constrained multimedia applications, simultaneously achieving ultra-low bitrate human video compression and accurate vertex prediction remains a critical challenge, as it demands the harmonization of dynamic motion modeling, detailed appearance synthesis, and geometric consistency. To address this challenge, we propose Sparse2Dense, a keypoint-driven generative framework that leverages extremely sparse 3D keypoints as compact transmitted symbols to enable ultra-low bitrate human video compression and precise human vertex prediction. The key innovation is the multi-task learning-based and keypoint-aware deep generative model, which could encode complex human motion via compact 3D keypoints and leverage these sparse keypoints to estimate dense motion for video synthesis with temporal coherence and realistic textures. Additionally, a vertex predictor is integrated to learn human vertex geometry through joint optimization with video generation, ensuring alignment between visual content and geometric structure. Extensive experiments demonstrate that the proposed Sparse2Dense framework achieves competitive compression performance for human video over traditional/generative video codecs, whilst enabling precise human vertex prediction for downstream geometry applications. As such, Sparse2Dense is expected to facilitate bandwidth-efficient human-centric media transmission, such as real-time motion analysis, virtual human animation, and immersive entertainment.