ManzaiSet: A Multimodal Dataset of Viewer Responses to Japanese Manzai Comedy

作者: Kazuki Kawamura, Kengo Nakai, Jun Rekimoto

分类: cs.CV, cs.MM

发布日期: 2025-10-20

备注: ICCV 2025 Workshop on Affective & Behavior Analysis in-the-Wild (ABAW), Honolulu, HI, USA (Oct 19, 2025, HST). 11 pages, 5 figures

期刊: ICCV 2025 Workshops (ICCVW) / CVF Open Access

💡 一句话要点

ManzaiSet：一个用于分析观众对日本漫才反应的多模态数据集

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 情感计算 日本漫才 观众反应 文化差异

📋 核心要点

现有情感计算研究存在以西方文化为中心的偏见，缺乏针对非西方文化背景下情感反应的数据集。
ManzaiSet数据集通过记录观众观看日本漫才时的面部视频和音频，捕捉了观众的情感反应，填补了数据空白。
实验结果揭示了观众类型的差异、观看顺序效应，并为文化敏感的情感AI和个性化娱乐系统提供了数据基础。

📝 摘要（中文）

本文提出了ManzaiSet，这是首个大规模多模态数据集，用于研究观众对日本漫才喜剧的反应。该数据集捕捉了241名参与者观看多达10场专业漫才表演时的面部视频和音频（94.6%的参与者观看了至少8场；分析集中在n=228）。这解决了情感计算中以西方为中心的偏见。研究发现了三个关键结果：（1）k均值聚类识别出三种不同的观众类型：高且稳定的欣赏者（72.8%，n=166），低且多变的衰退者（13.2%，n=30）和多变的进步者（14.0%，n=32），且方差存在异质性（Brown Forsythe p < 0.001）；（2）个体层面分析揭示了积极的观看顺序效应（平均斜率=0.488，t(227)=5.42，p < 0.001，置换p < 0.001），与疲劳假设相矛盾；（3）自动幽默分类（77个实例，131个标签）加上观众层面反应建模发现，经过FDR校正后，不同类型观众之间没有差异。该数据集有助于开发具有文化意识的情感AI和为非西方环境量身定制的个性化娱乐系统。

🔬 方法详解

问题定义：现有情感计算数据集主要集中在西方文化背景下，缺乏对非西方文化（如日本）情感表达方式的理解。这限制了情感AI在非西方文化环境中的应用，例如，无法准确识别和理解日本观众对喜剧的反应。现有方法难以捕捉文化差异带来的情感表达细微差别。

核心思路：通过构建一个大规模的、多模态的日本漫才观众反应数据集，来弥补现有数据集的不足。核心在于收集足够数量的、具有代表性的观众在观看漫才表演时的面部视频和音频数据，从而能够分析不同观众类型的情感反应模式，并建立文化敏感的情感识别模型。

技术框架：该研究主要分为数据收集、数据预处理、观众类型分析和幽默分类与建模四个阶段。数据收集阶段，招募大量参与者观看漫才表演，并记录他们的面部视频和音频。数据预处理阶段，对收集到的数据进行清洗、同步和标注。观众类型分析阶段，使用k均值聚类算法将观众划分为不同的类型。幽默分类与建模阶段，对漫才表演中的幽默片段进行标注，并建立模型来预测观众的反应。

关键创新：该研究的关键创新在于构建了一个大规模的、多模态的日本漫才观众反应数据集ManzaiSet，这是首个此类数据集。该数据集的构建解决了情感计算领域中以西方为中心的偏见，为开发文化敏感的情感AI提供了数据基础。此外，对观众类型和观看顺序效应的分析也为个性化娱乐系统的设计提供了新的思路。

关键设计：参与者观看的漫才表演顺序是随机的，以消除顺序偏差。使用k均值聚类算法将观众划分为不同的类型，并使用Brown Forsythe检验来验证不同类型观众之间方差的异质性。使用线性回归模型分析观看顺序对观众反应的影响。使用FDR校正来控制多重比较带来的误差。

📊 实验亮点

研究发现，通过k均值聚类将观众分为三类：高且稳定的欣赏者（72.8%）、低且多变的衰退者（13.2%）和多变的进步者（14.0%），且各类观众的方差存在显著差异（Brown Forsythe p < 0.001）。个体层面分析表明，观看顺序对观众反应有积极影响（平均斜率=0.488，t(227)=5.42，p < 0.001，置换p < 0.001），这与疲劳假设相悖。

🎯 应用场景

该研究成果可应用于开发更具文化敏感性的情感AI系统，例如，可以用于改进日本市场的语音助手、聊天机器人等产品，使其能够更好地理解和回应用户的喜怒哀乐。此外，该数据集还可以用于开发个性化的娱乐推荐系统，根据用户的文化背景和情感偏好，推荐更符合其口味的喜剧内容。未来，该研究方法可以推广到其他文化背景下，构建更多样化的情感数据集。

📄 摘要（原文）

We present ManzaiSet, the first large scale multimodal dataset of viewer responses to Japanese manzai comedy, capturing facial videos and audio from 241 participants watching up to 10 professional performances in randomized order (94.6 percent watched >= 8; analyses focus on n=228). This addresses the Western centric bias in affective computing. Three key findings emerge: (1) k means clustering identified three distinct viewer types: High and Stable Appreciators (72.8 percent, n=166), Low and Variable Decliners (13.2 percent, n=30), and Variable Improvers (14.0 percent, n=32), with heterogeneity of variance (Brown Forsythe p < 0.001); (2) individual level analysis revealed a positive viewing order effect (mean slope = 0.488, t(227) = 5.42, p < 0.001, permutation p < 0.001), contradicting fatigue hypotheses; (3) automated humor classification (77 instances, 131 labels) plus viewer level response modeling found no type wise differences after FDR correction. The dataset enables culturally aware emotion AI development and personalized entertainment systems tailored to non Western contexts.

ManzaiSet: A Multimodal Dataset of Viewer Responses to Japanese Manzai Comedy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册