TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation

📄 arXiv: 2510.07249v2 📥 PDF

作者: Jiaben Chen, Zixin Wang, Ailing Zeng, Yang Fu, Xueyang Yu, Siyuan Cen, Julian Tanke, Yihang Chen, Koichi Saito, Yuki Mitsufuji, Chuang Gan

分类: cs.CV

发布日期: 2025-10-08 (更新: 2025-10-13)

备注: Project page: https://talkcuts.github.io/


💡 一句话要点

提出TalkCuts大规模数据集,用于多镜头人声视频生成研究

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多镜头视频生成 人声视频生成 大规模数据集 多模态学习 语言模型引导 视频合成 姿势引导 音频驱动

📋 核心要点

  1. 现有数据集缺乏多镜头和多样化视角,限制了多镜头人声视频生成的研究。
  2. 提出TalkCuts数据集,包含高质量、多镜头、多视角的人声视频,并提供详细标注。
  3. 构建LLM引导的多模态生成框架Orator,实验证明在TalkCuts上训练能显著提升视频质量。

📝 摘要(中文)

本文提出了TalkCuts,一个大规模数据集,旨在促进多镜头人声视频生成的研究。与现有专注于单镜头、静态视角的数据集不同,TalkCuts提供超过500小时的高质量人声视频,包含16.4万个片段,具有多样化的镜头,包括特写、半身和全身视图。该数据集包括详细的文本描述、2D关键点和3D SMPL-X 运动标注,覆盖超过1万个身份,支持多模态学习和评估。作为展示数据集价值的初步尝试,我们提出了Orator,一个由LLM引导的多模态生成框架作为简单基线,其中语言模型充当多方面的导演,协调相机过渡、说话者手势和声音调制等详细规范。该架构通过我们集成的多模态视频生成模块,能够合成连贯的长视频。在姿势引导和音频驱动的设置下进行的大量实验表明,在TalkCuts上训练可以显著提高生成的多镜头语音视频的电影连贯性和视觉吸引力。我们相信TalkCuts为可控的多镜头语音视频生成和更广泛的多模态学习的未来工作提供了坚实的基础。

🔬 方法详解

问题定义:现有的人声视频生成数据集通常集中于单镜头和静态视角,缺乏对多镜头切换和动态场景的建模能力。这限制了生成更具电影感和真实感的人声视频。

核心思路:论文的核心思路是构建一个大规模、多镜头、多视角的人声视频数据集,并利用大型语言模型(LLM)作为导演,指导多模态生成框架,从而实现对相机过渡、说话者手势和声音调制的精细控制。

技术框架:整体框架Orator包含以下几个主要模块:1) LLM导演模块:利用LLM生成相机过渡、手势和声音调制的指令。2) 多模态视频生成模块:根据LLM的指令,结合姿势或音频信息,生成相应的视频片段。3) 集成模块:将生成的视频片段拼接成连贯的长视频。

关键创新:该论文的关键创新在于:1) 构建了大规模多镜头人声视频数据集TalkCuts,为多镜头视频生成提供了数据基础。2) 提出了LLM引导的多模态生成框架Orator,利用LLM的强大能力来控制视频的生成过程,实现了更精细的控制和更高的生成质量。

关键设计:Orator框架中,LLM被设计为“导演”,负责生成详细的指令,包括相机角度、人物姿势、语音语调等。这些指令被传递给多模态视频生成模块,该模块根据指令生成相应的视频片段。损失函数的设计旨在保证生成视频的连贯性和真实感,具体细节未知。

📊 实验亮点

实验结果表明,在TalkCuts数据集上训练的Orator框架,在姿势引导和音频驱动的设置下,能够显著提高生成的多镜头语音视频的电影连贯性和视觉吸引力。具体性能数据未知,但相较于其他基线方法,Orator在主观评价上表现更佳。

🎯 应用场景

该研究成果可应用于虚拟主播、远程会议、电影制作等领域。通过TalkCuts数据集和Orator框架,可以生成更具表现力和真实感的人声视频,提升用户体验和沟通效率。未来,该技术有望应用于个性化视频生成、虚拟现实和增强现实等领域。

📄 摘要(原文)

In this work, we present TalkCuts, a large-scale dataset designed to facilitate the study of multi-shot human speech video generation. Unlike existing datasets that focus on single-shot, static viewpoints, TalkCuts offers 164k clips totaling over 500 hours of high-quality human speech videos with diverse camera shots, including close-up, half-body, and full-body views. The dataset includes detailed textual descriptions, 2D keypoints and 3D SMPL-X motion annotations, covering over 10k identities, enabling multimodal learning and evaluation. As a first attempt to showcase the value of the dataset, we present Orator, an LLM-guided multi-modal generation framework as a simple baseline, where the language model functions as a multi-faceted director, orchestrating detailed specifications for camera transitions, speaker gesticulations, and vocal modulation. This architecture enables the synthesis of coherent long-form videos through our integrated multi-modal video generation module. Extensive experiments in both pose-guided and audio-driven settings show that training on TalkCuts significantly enhances the cinematographic coherence and visual appeal of generated multi-shot speech videos. We believe TalkCuts provides a strong foundation for future work in controllable, multi-shot speech video generation and broader multimodal learning.