Face-to-Face: A Video Dataset for Multi-Person Interaction Modeling

📄 arXiv: 2603.14794v1 📥 PDF

作者: Ernie Chu, Vishal M. Patel

分类: cs.CV, cs.LG

发布日期: 2026-03-16


💡 一句话要点

提出F2F-JF多人交互视频数据集,用于建模人际对话中的反应时序关系。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人际交互建模 视频数据集 反应时序 语音驱动 数字形象 扩散模型 双人对话

📋 核心要点

  1. 现有视听数据集大多为孤立的独白,难以建模人类对话的反应节奏,缺乏对交互时序依赖的有效捕捉。
  2. 论文提出F2F-JF数据集,包含嘉宾和主持人的对话片段,重点关注嘉宾发言后主持人的反应,保留时序依赖关系。
  3. 实验表明,利用该数据集训练的语音驱动数字形象模型,在跨人视觉上下文的条件下,性能指标有所提升。

📝 摘要(中文)

本文提出了一个名为“Face-to-Face with Jimmy Fallon (F2F-JF)”的视频数据集,用于建模人际对话中的反应时序。该数据集包含70小时、14k个片段的双人脱口秀交流,保留了嘉宾发言和主持人回应之间的时序依赖关系。通过半自动流程,结合多人跟踪、语音分割和人工验证,提取了时间对齐的主持人/嘉宾片段,并带有紧密的裁剪和元数据,可直接用于下游建模。论文展示了一个反应式的、语音驱动的数字形象任务,其中主持人在[t1, t2]期间的视频由他们的音频以及嘉宾在[t0, t1]期间的视频生成。将MultiTalk风格的扩散模型以此跨人视觉上下文为条件,在保持唇音同步质量的同时,获得了Emotion-FID和FVD的微小但一致的提升。该数据集、预处理方法和基线共同提供了一个研究二元、顺序行为的端到端蓝图。数据集和代码将公开。

🔬 方法详解

问题定义:现有的人际交互建模数据集通常侧重于单人演讲或简短的独白,忽略了对话中重要的反应时序关系。缺乏高质量的、包含丰富交互信息的双人对话数据集,使得研究人员难以有效建模对话参与者之间的相互影响和反应模式。

核心思路:论文的核心思路是构建一个大规模的双人对话数据集,该数据集不仅包含视频和音频信息,还精确地标注了对话参与者之间的时序关系,特别是嘉宾发言后主持人的反应。通过提供这种具有时序依赖关系的数据,研究人员可以更好地训练模型来理解和生成更自然、更具交互性的对话行为。

技术框架:该论文的技术框架主要包括数据集的构建和基于该数据集的实验验证。数据集构建流程包括:1) 收集Jimmy Fallon脱口秀的视频;2) 使用多人跟踪算法跟踪视频中的人物;3) 使用语音分割技术区分主持人和嘉宾的语音;4) 通过人工验证确保数据的准确性;5) 提取时间对齐的主持人/嘉宾片段,并生成元数据。实验部分则使用该数据集训练一个语音驱动的数字形象模型,并评估其性能。

关键创新:该论文的关键创新在于构建了一个专门用于研究人际交互反应时序的大规模数据集。该数据集的特点是:1) 包含丰富的双人对话场景;2) 精确标注了对话参与者之间的时序关系;3) 提供了预处理后的数据和元数据,方便研究人员使用。此外,论文还提供了一个基于该数据集的基线模型,为后续研究提供了参考。

关键设计:在数据集构建过程中,使用了半自动化的流程,结合了自动算法和人工验证,以确保数据的质量。在实验部分,使用了MultiTalk风格的扩散模型,并将其条件设置为跨人视觉上下文(即嘉宾的视频)。实验中使用了Emotion-FID和FVD等指标来评估生成视频的质量,并与音频驱动的基线模型进行了比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在F2F-JF数据集上训练的语音驱动数字形象模型,在跨人视觉上下文的条件下,Emotion-FID和FVD指标均有小幅但一致的提升。相较于仅使用音频信息的基线模型,该方法在保持唇音同步质量的同时,能够生成更具表现力的视频,验证了该数据集在建模人际交互反应时序方面的有效性。

🎯 应用场景

该研究成果可应用于虚拟助手、社交机器人、远程会议系统等领域,提升人机交互的自然性和真实感。通过理解和模拟人际对话中的反应时序,可以使虚拟角色更具表现力,从而改善用户体验。此外,该数据集也可用于研究人类交流行为,为心理学、社会学等领域提供数据支持。

📄 摘要(原文)

Modeling the reactive tempo of human conversation remains difficult because most audio-visual datasets portray isolated speakers delivering short monologues. We introduce \textbf{Face-to-Face with Jimmy Fallon (F2F-JF)}, a 70-hour, 14k-clip dataset of two-person talk-show exchanges that preserves the sequential dependency between a guest turn and the host's response. A semi-automatic pipeline combines multi-person tracking, speech diarization, and lightweight human verification to extract temporally aligned host/guest tracks with tight crops and metadata that are ready for downstream modeling. We showcase the dataset with a reactive, speech-driven digital avatar task in which the host video during $[t_1,t_2]$ is generated from their audio plus the guest's preceding video during $[t_0,t_1]$. Conditioning a MultiTalk-style diffusion model on this cross-person visual context yields small but consistent Emotion-FID and FVD gains while preserving lip-sync quality relative to an audio-only baseline. The dataset, preprocessing recipe, and baseline together provide an end-to-end blueprint for studying dyadic, sequential behavior, which we expand upon throughout the paper. Dataset and code will be made publicly available.