T2Bs: Text-to-Character Blendshapes via Video Generation

作者: Jiahao Luo, Chaoyang Wang, Michael Vasilkovsky, Vladislav Shakhrai, Di Liu, Peiye Zhuang, Sergey Tulyakov, Peter Wonka, Hsin-Ying Lee, James Davis, Jian Wang

分类: cs.GR

发布日期: 2025-09-12 (更新: 2025-09-26)

💡 一句话要点

T2Bs：通过视频生成实现文本到角色Blendshape的转换

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 文本到3D生成 视频扩散模型 可变形3D高斯溅射 形变模型 角色动画

📋 核心要点

现有方法难以兼顾静态3D模型的细节和视频扩散模型的动态性，导致生成高质量可动画角色头部模型存在挑战。
T2Bs的核心思想是将静态3D生成与视频扩散相结合，利用可变形3D高斯溅射对齐静态几何体和动态视频，实现优势互补。
实验表明，T2Bs在准确性、表现力方面优于现有4D生成方法，并能生成更平滑、连贯的3D几何体。

📝 摘要（中文）

T2Bs是一个框架，它通过结合静态的文本到3D生成与视频扩散，从文本生成高质量、可动画的角色头部形变模型。文本到3D模型能生成精细的静态几何体，但缺乏运动合成能力；而视频扩散模型能生成运动，但存在时间和多视角几何不一致性。T2Bs通过利用可变形的3D高斯溅射将静态3D资产与视频输出对齐来弥合这一差距。通过用静态几何体约束运动，并采用视角相关的形变MLP，T2Bs在准确性和表现力方面优于现有的4D生成方法，同时减少了视频伪影和视角不一致性，并重建了平滑、连贯、完全注册的3D几何体，旨在扩展以构建具有多样化、逼真面部运动的形变模型。这使得能够合成富有表现力、可动画的角色头部，超越了当前的4D生成技术。

🔬 方法详解

问题定义：论文旨在解决从文本生成高质量、可动画角色头部形变模型的问题。现有文本到3D模型缺乏运动合成能力，而视频扩散模型生成的运动存在时间和多视角几何不一致性，难以直接生成高质量的动画模型。

核心思路：论文的核心思路是将静态文本到3D生成与视频扩散模型相结合，利用静态3D几何体约束视频扩散生成的运动，并使用可变形3D高斯溅射技术将二者对齐，从而实现优势互补，生成高质量的动画模型。

技术框架：T2Bs框架包含以下主要阶段：1) 使用文本到3D模型生成静态3D几何体；2) 使用视频扩散模型生成角色头部运动的视频；3) 使用可变形3D高斯溅射将静态3D几何体与视频输出对齐，学习视角相关的形变MLP；4) 从对齐后的3D高斯溅射中提取最终的动画模型。

关键创新：论文的关键创新在于：1) 提出了一种将静态3D生成与视频扩散相结合的框架，有效利用了二者的优势；2) 使用可变形3D高斯溅射技术，实现了静态几何体与动态视频的精确对齐；3) 引入视角相关的形变MLP，提高了模型的表现力。与现有方法的本质区别在于，T2Bs能够生成具有时间和空间一致性的高质量动画模型。

关键设计：论文的关键设计包括：1) 使用预训练的文本到3D模型和视频扩散模型，降低了训练难度；2) 设计了合适的损失函数，用于约束3D高斯溅射的形变；3) 优化了网络结构，提高了模型的训练效率和生成质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，T2Bs在生成角色头部动画的准确性和表现力方面优于现有的4D生成方法。具体来说，T2Bs能够生成更平滑、连贯的3D几何体，并减少视频伪影和视角不一致性。通过定量和定性评估，证明了T2Bs在生成高质量可动画角色头部模型方面的优越性。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、电影制作等领域，实现从文本描述快速生成逼真、可动画的角色头部模型。这可以大大降低角色建模的成本，提高内容创作的效率，并为用户提供更加个性化的体验。未来，该技术有望扩展到全身动画生成，甚至实现基于文本的虚拟人物定制。

📄 摘要（原文）

We present T2Bs, a framework for generating high-quality, animatable character head morphable models from text by combining static text-to-3D generation with video diffusion. Text-to-3D models produce detailed static geometry but lack motion synthesis, while video diffusion models generate motion with temporal and multi-view geometric inconsistencies. T2Bs bridges this gap by leveraging deformable 3D Gaussian splatting to align static 3D assets with video outputs. By constraining motion with static geometry and employing a view-dependent deformation MLP, T2Bs (i) outperforms existing 4D generation methods in accuracy and expressiveness while reducing video artifacts and view inconsistencies, and (ii) reconstructs smooth, coherent, fully registered 3D geometries designed to scale for building morphable models with diverse, realistic facial motions. This enables synthesizing expressive, animatable character heads that surpass current 4D generation techniques.

T2Bs: Text-to-Character Blendshapes via Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理