Multilingual Dyadic Interaction Corpus NoXi+J: Toward Understanding Asian-European Non-verbal Cultural Characteristics and their Influences on Engagement

📄 arXiv: 2409.13726v1 📥 PDF

作者: Marius Funk, Shogo Okada, Elisabeth André

分类: cs.CL, cs.AI, cs.HC, cs.LG

发布日期: 2024-09-09

备注: 8 pages. 6 figures. International Conference on Multimodal Interaction, November 4-8, 2024, San Jose, Costa Rica

DOI: 10.1145/3678957.3685757


💡 一句话要点

构建多语种交互语料库NoXi+J,探究亚欧文化非语言特征对互动的影响

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语种语料库 非语言行为 跨文化互动 LSTM模型 SHAP分析

📋 核心要点

  1. 现有计算方法在分析跨文化非语言行为差异及其对互动影响方面存在局限性。
  2. 论文通过构建多语种语料库NoXi+J,提取多模态非语言特征,分析文化依赖和独立特征。
  3. 实验结果表明,输入特征对互动预测的重要性与文化特征之间存在显著相关性。

📝 摘要(中文)

非语言行为是理解对话动态以及对话者之间情感状态的关键挑战。尽管心理学研究表明非语言行为因文化而异,但计算分析在阐明这些差异并评估其对互动识别的影响方面还很有限。为了更深入地了解各种文化和语言范围内的互动和非语言行为,本研究对非语言特征进行了多语种计算分析,并研究了它们在互动和互动预测中的作用。为此,我们首先扩展了NoXi数据集,该数据集包含来自居住在法国、德国和英国的参与者的互动数据,通过收集日语和中文的二元对话会话数据,形成了增强的NoXi+J数据集。接下来,我们通过各种模式识别技术和算法提取了多模态非语言特征,包括语音声学、面部表情、后通道和手势。然后,我们对倾听行为和后通道模式进行了统计分析,以识别每种语言中文化依赖和独立的特征,以及多种语言之间的共同特征。这些特征还与对话者表现出的互动相关联。最后,我们分析了LSTM模型输入特征中的文化差异对五种语言数据集互动预测的影响。结合迁移学习的SHAP分析证实了语言集的输入特征重要性与分析的显著文化特征之间存在相当大的相关性。

🔬 方法详解

问题定义:现有方法缺乏对跨文化非语言行为差异的深入分析,难以准确评估这些差异对互动的影响。尤其是在互动识别任务中,忽略文化因素可能导致模型性能下降。NoXi数据集虽然包含欧洲文化背景下的互动数据,但缺乏亚洲文化背景的数据,限制了跨文化研究的范围。

核心思路:论文的核心思路是通过构建一个包含多种语言和文化背景的交互语料库,提取并分析其中的非语言特征,从而揭示不同文化背景下非语言行为的差异,并评估这些差异对互动的影响。通过统计分析和机器学习方法,量化文化因素在互动中的作用。

技术框架:整体框架包括数据收集、特征提取、统计分析和模型训练四个主要阶段。首先,扩展NoXi数据集,加入日语和中文的二元对话数据,形成NoXi+J语料库。然后,利用模式识别技术和算法,提取语音声学、面部表情、后通道和手势等多模态非语言特征。接着,对这些特征进行统计分析,识别文化依赖和独立的特征。最后,使用LSTM模型进行互动预测,并结合SHAP分析评估输入特征的重要性。

关键创新:该研究的关键创新在于构建了包含亚洲和欧洲文化的多语种交互语料库NoXi+J,并结合统计分析和机器学习方法,系统地研究了文化因素对非语言行为和互动的影响。通过SHAP分析,揭示了输入特征重要性与文化特征之间的相关性,为跨文化互动理解提供了新的视角。

关键设计:在数据收集方面,确保了不同文化背景下参与者的代表性。在特征提取方面,采用了多种模式识别技术和算法,以捕捉不同类型的非语言行为。在模型训练方面,使用了LSTM模型,并结合迁移学习和SHAP分析,以评估文化因素的影响。具体的参数设置和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LSTM模型在不同语言数据集上的互动预测性能存在差异,这反映了文化因素的影响。结合迁移学习的SHAP分析证实了语言集的输入特征重要性与分析的显著文化特征之间存在显著相关性。具体的性能数据和提升幅度在摘要中未提及,属于未知信息。

🎯 应用场景

该研究成果可应用于跨文化交流、人机交互、情感计算等领域。例如,可以用于开发更具文化敏感性的人机交互系统,提高跨文化团队的沟通效率,以及改善跨文化环境下的情感识别准确率。未来,可以进一步研究不同文化背景下的情感表达方式,并将其应用于情感智能领域。

📄 摘要(原文)

Non-verbal behavior is a central challenge in understanding the dynamics of a conversation and the affective states between interlocutors arising from the interaction. Although psychological research has demonstrated that non-verbal behaviors vary across cultures, limited computational analysis has been conducted to clarify these differences and assess their impact on engagement recognition. To gain a greater understanding of engagement and non-verbal behaviors among a wide range of cultures and language spheres, in this study we conduct a multilingual computational analysis of non-verbal features and investigate their role in engagement and engagement prediction. To achieve this goal, we first expanded the NoXi dataset, which contains interaction data from participants living in France, Germany, and the United Kingdom, by collecting session data of dyadic conversations in Japanese and Chinese, resulting in the enhanced dataset NoXi+J. Next, we extracted multimodal non-verbal features, including speech acoustics, facial expressions, backchanneling and gestures, via various pattern recognition techniques and algorithms. Then, we conducted a statistical analysis of listening behaviors and backchannel patterns to identify culturally dependent and independent features in each language and common features among multiple languages. These features were also correlated with the engagement shown by the interlocutors. Finally, we analyzed the influence of cultural differences in the input features of LSTM models trained to predict engagement for five language datasets. A SHAP analysis combined with transfer learning confirmed a considerable correlation between the importance of input features for a language set and the significant cultural characteristics analyzed.