Timing In stand-up Comedy: Text, Audio, Laughter, Kinesics (TIC-TALK): Pipeline and Database for the Multimodal Study of Comedic Timing
作者: Yaelle Zribi, Florian Cafiero, Vincent Lépinay, Chahan Vidal-Gorène
分类: cs.CV
发布日期: 2026-03-23
💡 一句话要点
TIC-TALK:构建用于喜剧时机多模态研究的文本、音频、姿态数据库与流程
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单口喜剧 多模态分析 喜剧时机 姿态估计 笑声检测 数据集构建 自然语言处理
📋 核心要点
- 单口喜剧的研究通常侧重于语言内容,忽略了现场表演中肢体表达和观众反馈的重要性。
- TIC-TALK通过构建包含文本、音频、姿态的多模态数据库,旨在更全面地分析喜剧表演的时机把握。
- 实验结果表明,动能与笑声率负相关,个人内容更易引人发笑,特写镜头比例与笑声正相关。
📝 摘要(中文)
本研究介绍了一个名为TIC-TALK的多模态资源,它包含5400多个时间对齐的主题片段,涵盖了90个专业拍摄的单口喜剧特辑(2015-2024)中的语言、手势和观众反应。该流程结合了BERTopic进行60秒的主题分割和密集句子嵌入,Whisper-AT进行0.8秒的笑声检测,一个微调的YOLOv8-cls镜头分类器,以及YOLOv8s-pose以1fps提取原始关键点。保留原始的17关节骨骼坐标,不进行预先聚类,从而能够计算连续的运动信号——手臂展开、动能和躯干倾斜——作为表演动态的代理。所有数据流通过分层时间包含对齐,不进行重采样,并且每个主题片段存储其sentence-BERT嵌入,用于下游的相似性和聚类任务。作为一个具体的用例,我们研究了24个主题的笑声动态:动能与观众笑声率呈负相关(r = -0.75,N = 24),这与笑点前的静止模式一致;个人和身体内容比地缘政治主题更能引起笑声;镜头特写比例与笑声呈正相关(r = +0.28),这与反应式蒙太奇一致。
🔬 方法详解
问题定义:现有单口喜剧研究主要集中在语言文本分析,忽略了表演者的肢体动作、面部表情以及观众的反馈等非语言信息,这些信息对于理解喜剧效果和时机至关重要。缺乏一个综合性的多模态数据集来支持对喜剧表演的深入研究。
核心思路:论文的核心思路是构建一个多模态的单口喜剧数据集,该数据集包含文本、音频和姿态信息,并对这些模态进行时间对齐。通过分析这些模态之间的关系,可以更全面地理解喜剧表演的时机把握和效果。
技术框架:TIC-TALK的整体流程包括以下几个主要模块:1) 使用BERTopic进行主题分割;2) 使用Whisper-AT进行笑声检测;3) 使用YOLOv8-cls进行镜头分类;4) 使用YOLOv8s-pose进行姿态估计。所有数据流通过分层时间包含对齐,不进行重采样。
关键创新:该研究的关键创新在于构建了一个包含多种模态信息并进行时间对齐的单口喜剧数据集。此外,该研究还探索了使用连续运动信号(如手臂展开、动能和躯干倾斜)作为表演动态代理的方法。
关键设计:在姿态估计方面,保留了原始的17关节骨骼坐标,不进行预先聚类,以便能够计算连续的运动信号。在时间对齐方面,采用分层时间包含的方法,避免了重采样带来的信息损失。笑声检测使用 Whisper-AT 模型,可以更准确地检测到笑声的起始和结束时间。
📊 实验亮点
研究发现,动能与观众笑声率呈显著负相关(r = -0.75),表明表演者在笑点前通常会保持相对静止。此外,个人和身体相关的主题比地缘政治主题更能引起观众的笑声。镜头特写比例与笑声呈正相关(r = +0.28),这支持了反应式蒙太奇在喜剧表演中的作用。
🎯 应用场景
该研究成果可应用于喜剧表演分析、喜剧生成、人机交互等领域。例如,可以利用该数据集训练AI模型,使其能够理解喜剧的时机把握,从而生成更具幽默感的文本或表演。此外,该研究还可以帮助喜剧演员更好地理解自己的表演风格,并改进表演技巧。
📄 摘要(原文)
Stand-up comedy, and humor in general, are often studied through their verbal content. Yet live performance relies just as much on embodied presence and audience feedback. We introduce TIC-TALK, a multimodal resource with 5,400+ temporally aligned topic segments capturing language, gesture, and audience response across 90 professionally filmed stand-up comedy specials (2015-2024). The pipeline combines BERTopic for 60 s thematic segmentation with dense sentence embeddings, Whisper-AT for 0.8 s laughter detection, a fine-tuned YOLOv8-cls shot classifier, and YOLOv8s-pose for raw keypoint extraction at 1 fps. Raw 17-joint skeletal coordinates are retained without prior clustering, enabling the computation of continuous kinematic signals-arm spread, kinetic energy, and trunk lean-that serve as proxies for performance dynamics. All streams are aligned by hierarchical temporal containment without resampling, and each topic segment stores its sentence-BERT embedding for downstream similarity and clustering tasks. As a concrete use case, we study laughter dynamics across 24 thematic topics: kinetic energy negatively predicts audience laughter rate (r = -0.75, N = 24), consistent with a stillness-before-punchline pattern; personal and bodily content elicits more laughter than geopolitical themes; and shot close-up proportion correlates positively with laughter (r = +0.28), consistent with reactive montage.