UpStory: the Uppsala Storytelling dataset

📄 arXiv: 2407.04352v1 📥 PDF

作者: Marc Fraile, Natalia Calvo-Barajas, Anastasia Sophia Apeiron, Giovanna Varni, Joakim Lindblad, Nataša Sladoje, Ginevra Castellano

分类: cs.HC, cs.LG

发布日期: 2024-07-05


💡 一句话要点

发布UpStory数据集,用于儿童互动中Rapport预测的机器学习研究

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 儿童互动 Rapport预测 社交智能 多模态数据集 机器学习 教育场景 姿势估计

📋 核心要点

  1. 现有儿童互动数据集缺乏对Rapport(融洽关系)的明确标注,阻碍了机器学习在该领域的应用。
  2. UpStory数据集通过实验设计,操纵儿童间的友谊关系,平衡收集不同水平的Rapport数据。
  3. 该数据集包含丰富的多模态信息,并提供头部姿势、身体姿势和面部特征等预处理数据,以及Rapport预测的机器学习基线。

📝 摘要(中文)

友谊和融洽关系在建设性社会互动中起着重要作用,并且由于其对学生成绩的影响,已在教育环境中得到广泛研究。 鉴于人们越来越有兴趣通过机器学习(ML)自动分析此类现象,因此访问带注释的交互数据集非常有价值。 然而,目前还没有明确捕捉融洽关系的儿童-儿童互动数据集。 此外,尽管在人类行为的自动分析方面取得了进展,但之前没有工作解决过教育环境中儿童-儿童二元互动中融洽关系的预测问题。 我们提出了UpStory——乌普萨拉故事数据集:这是一个新颖的自然主义二元互动数据集,参与者是小学年龄的儿童,并对融洽关系进行了实验性操作。 年龄在8-10岁之间的儿童配对参与一项以任务为导向的活动:一起设计一个故事,同时允许在游戏区域内自由移动。 我们通过使用受试者内设计来促进不同水平融洽关系的平衡收集:自我报告的友谊用于将每个孩子配对两次,要么最小化要么最大化友谊网络中的配对分离。 该数据集包含35对儿童的数据,总计3小时40分钟的音频和视频记录。 它包括覆盖游戏区域的两个视频源,以及每个孩子的单独录音。 该数据集的匿名版本已公开,其中包含每帧头部姿势、身体姿势和面部特征; 以及每对儿童的信息,包括融洽关系的水平。 最后,我们为融洽关系的预测提供了ML基线。

🔬 方法详解

问题定义:现有方法缺乏对儿童二元互动中Rapport的量化分析,尤其是在教育场景下。缺乏高质量的、带有Rapport标注的数据集,使得利用机器学习自动预测和分析儿童间的Rapport成为一个挑战。现有数据集通常关注成人互动或缺乏细粒度的Rapport标注。

核心思路:通过实验设计,操纵儿童间的友谊关系,从而控制Rapport的水平。具体来说,利用儿童的自我报告的友谊关系,将每个儿童配对两次,一次是最小化友谊网络中的分离(高Rapport),另一次是最大化分离(低Rapport)。这种受试者内设计有助于平衡不同Rapport水平的数据收集。

技术框架:UpStory数据集的构建流程主要包括以下几个阶段:1)招募8-10岁的小学儿童;2)通过问卷调查获取儿童间的友谊关系信息;3)根据友谊关系信息,将儿童配对进行故事创作任务,并记录其互动过程;4)收集多模态数据,包括视频(两个视角)、音频(每个儿童单独录音);5)对数据进行预处理,提取头部姿势、身体姿势和面部特征;6)对每对儿童的Rapport水平进行标注;7)提供Rapport预测的机器学习基线。

关键创新:UpStory数据集的主要创新在于:1)它是第一个明确关注儿童二元互动中Rapport的数据集;2)它通过实验设计来控制Rapport水平,从而平衡数据集;3)它提供了丰富的多模态数据,包括视频、音频和预处理的姿势和面部特征;4)它提供了Rapport预测的机器学习基线,方便后续研究。

关键设计:数据集包含35对儿童的数据,总计3小时40分钟的音频和视频记录。视频数据包括两个视角的录像,音频数据包括每个儿童的单独录音。预处理的特征包括每帧的头部姿势、身体姿势和面部特征。Rapport的标注是基于专家评估或儿童自我报告(具体标注方法未知)。提供的机器学习基线模型细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提供了一个包含35对儿童互动,总计3小时40分钟的UpStory数据集。该数据集包含多模态数据,包括视频、音频和预处理的姿势和面部特征。此外,论文还提供了Rapport预测的机器学习基线,为后续研究提供参考。具体的性能数据和对比基线细节未知。

🎯 应用场景

UpStory数据集可用于开发自动评估儿童社交技能的系统,例如,通过分析儿童的互动行为来预测其Rapport水平。这有助于教育工作者更好地了解儿童的社交发展,并提供个性化的支持。此外,该数据集还可以用于研究儿童的非语言交流行为,例如姿势、面部表情和语音特征,以及这些行为与Rapport之间的关系。该数据集的应用前景广阔,有望推动儿童社交智能研究的发展。

📄 摘要(原文)

Friendship and rapport play an important role in the formation of constructive social interactions, and have been widely studied in educational settings due to their impact on student outcomes. Given the growing interest in automating the analysis of such phenomena through Machine Learning (ML), access to annotated interaction datasets is highly valuable. However, no dataset on dyadic child-child interactions explicitly capturing rapport currently exists. Moreover, despite advances in the automatic analysis of human behaviour, no previous work has addressed the prediction of rapport in child-child dyadic interactions in educational settings. We present UpStory -- the Uppsala Storytelling dataset: a novel dataset of naturalistic dyadic interactions between primary school aged children, with an experimental manipulation of rapport. Pairs of children aged 8-10 participate in a task-oriented activity: designing a story together, while being allowed free movement within the play area. We promote balanced collection of different levels of rapport by using a within-subjects design: self-reported friendships are used to pair each child twice, either minimizing or maximizing pair separation in the friendship network. The dataset contains data for 35 pairs, totalling 3h 40m of audio and video recordings. It includes two video sources covering the play area, as well as separate voice recordings for each child. An anonymized version of the dataset is made publicly available, containing per-frame head pose, body pose, and face features; as well as per-pair information, including the level of rapport. Finally, we provide ML baselines for the prediction of rapport.