Spatiotemporal Emotional Synchrony in Dyadic Interactions: The Role of Speech Conditions in Facial and Vocal Affective Alignment

📄 arXiv: 2505.13455v3 📥 PDF

作者: Von Ralph Dane Marquez Herbuela, Yukie Nagai

分类: eess.AS, cs.AI

发布日期: 2025-04-29 (更新: 2025-05-30)


💡 一句话要点

研究语音条件下人际互动中情绪同步的时空特性,揭示语音重叠对情感协调的影响

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感同步 多模态情感 人机交互 语音重叠 面部表情 语音情感 时空分析

📋 核心要点

  1. 现有情感识别系统和人机交互在理解多通道情感同步方面存在不足,尤其是在真实对话场景中。
  2. 该研究分析了语音重叠与非重叠两种会话模式下,面部表情和语音情感的时空对齐关系。
  3. 实验结果表明,非重叠语音条件下情感同步更稳定,时序关系更清晰,而重叠语音条件下同步性更复杂。

📝 摘要(中文)

理解人类如何在多个沟通渠道(特别是面部表情和语音)中表达和同步情绪,对于情感识别系统和人机交互具有重要意义。本研究基于非重叠语音促进更清晰的情感协调,而重叠语音会扰乱同步的观点,探讨了这些会话动态如何塑造面部和语音模态中唤醒度和效价的空间和时间对齐。利用IEMOCAP数据集中的二元互动,我们通过EmoNet(面部视频)和基于Wav2Vec2的模型(语音音频)提取了连续的情绪估计。根据语音重叠情况对片段进行分类,并使用Pearson相关、滞后调整分析和动态时间规整(DTW)评估情绪对齐。分析表明,非重叠语音与比重叠语音更稳定和可预测的情绪同步相关。虽然零滞后相关性较低且无统计学差异,但非重叠语音显示出较低的变异性,尤其是在唤醒方面。滞后调整相关性和最佳滞后分布揭示了这些片段中更清晰、更一致的时间对齐。相比之下,重叠语音表现出更高的变异性和更平坦的滞后曲线,但DTW表明了出乎意料的更紧密的对齐,表明了不同的协调策略。值得注意的是,方向性模式表明,在轮流发言期间,面部表情通常先于语音,而在同时发声期间,语音领先。这些发现强调了会话结构在调节情感交流中的重要性,并为真实世界互动中多模态情感对齐的时空动态提供了新的见解。

🔬 方法详解

问题定义:论文旨在研究在二元互动中,语音重叠情况如何影响面部表情和语音情感的时空同步模式。现有方法通常忽略了会话结构对情感表达的影响,未能充分理解真实场景下多模态情感的复杂交互。

核心思路:论文的核心思路是考察语音重叠(overlapping speech)和非重叠语音(non-overlapping speech)两种不同的会话状态,并分析这两种状态下,个体面部表情和语音情感在时间上的关联性。作者认为,非重叠语音更有利于清晰的情感协调,而重叠语音则会干扰这种协调。

技术框架:整体流程包括:1) 从IEMOCAP数据集中提取二元互动片段;2) 使用EmoNet(面部视频)和基于Wav2Vec2的模型(语音音频)提取连续的情绪估计(唤醒度和效价);3) 根据语音重叠情况对片段进行分类;4) 使用Pearson相关、滞后调整分析和动态时间规整(DTW)评估情绪对齐情况;5) 分析面部表情和语音在不同会话状态下的时序领先关系。

关键创新:该研究的关键创新在于将语音重叠作为影响情感同步的重要因素纳入考量,并分析了不同会话状态下情感表达的时空动态。与以往研究主要关注静态情感识别或简单的模态融合不同,该研究关注真实互动场景下情感表达的复杂性和动态性。

关键设计:论文使用了EmoNet提取面部情感特征,Wav2Vec2提取语音情感特征。采用Pearson相关系数衡量情绪同步程度,通过滞后调整分析寻找最佳时间延迟,并使用动态时间规整(DTW)来处理非线性时间序列对齐。此外,还分析了面部表情和语音在不同会话状态下的时序领先关系,以揭示情感表达的方向性。

📊 实验亮点

实验结果表明,非重叠语音条件下,面部表情和语音情感的同步性更强,变异性更低,时间对齐更清晰。滞后调整分析显示,非重叠语音条件下存在更一致的时间延迟。方向性分析表明,在轮流发言时,面部表情通常先于语音,而在同时发声时,语音领先。

🎯 应用场景

该研究成果可应用于情感计算、人机交互、社交机器人等领域。通过理解会话结构对情感表达的影响,可以设计更自然、更具同理心的人机交互系统,提升情感识别的准确性和鲁棒性,并为社交机器人的情感表达提供更精细的控制策略。

📄 摘要(原文)

Understanding how humans express and synchronize emotions across multiple communication channels particularly facial expressions and speech has significant implications for emotion recognition systems and human computer interaction. Motivated by the notion that non-overlapping speech promotes clearer emotional coordination, while overlapping speech disrupts synchrony, this study examines how these conversational dynamics shape the spatial and temporal alignment of arousal and valence across facial and vocal modalities. Using dyadic interactions from the IEMOCAP dataset, we extracted continuous emotion estimates via EmoNet (facial video) and a Wav2Vec2-based model (speech audio). Segments were categorized based on speech overlap, and emotional alignment was assessed using Pearson correlation, lag adjusted analysis, and Dynamic Time Warping (DTW). Across analyses, non overlapping speech was associated with more stable and predictable emotional synchrony than overlapping speech. While zero-lag correlations were low and not statistically different, non overlapping speech showed reduced variability, especially for arousal. Lag adjusted correlations and best-lag distributions revealed clearer, more consistent temporal alignment in these segments. In contrast, overlapping speech exhibited higher variability and flatter lag profiles, though DTW indicated unexpectedly tighter alignment suggesting distinct coordination strategies. Notably, directionality patterns showed that facial expressions more often preceded speech during turn-taking, while speech led during simultaneous vocalizations. These findings underscore the importance of conversational structure in regulating emotional communication and provide new insight into the spatial and temporal dynamics of multimodal affective alignment in real world interaction.