Learning Co-Speech Gesture Representations in Dialogue through Contrastive Learning: An Intrinsic Evaluation

作者: Esam Ghaleb, Bulat Khaertdinov, Wim Pouw, Marlou Rasenberg, Judith Holler, Aslı Özyürek, Raquel Fernández

分类: cs.CV, cs.AI, cs.SD, eess.AS

发布日期: 2024-08-31

期刊: INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION (ICMI 2024)

DOI: 10.1145/3678957.3685707

💡 一句话要点

提出基于对比学习的对话中协同手势表征学习方法，提升手势相似度匹配。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 协同手势 对比学习 多模态学习 表征学习 人机交互

📋 核心要点

面谈对话中协同手势的形态与意义关系受上下文因素和说话者个人特征影响，导致手势表征学习充满挑战。
论文提出一种基于对比学习的自监督方法，通过单模态和多模态预训练，学习与语音关联的手势表征。
实验结果表明，该方法学习到的表征与人工标注的手势相似度高度相关，并能恢复手势形态的关键特征。

📝 摘要（中文）

本文针对面谈对话中协同手势的表征学习挑战，提出了一种基于自监督对比学习的技术，从骨骼和语音信息中学习手势表征。该方法包含单模态和多模态预训练，以将手势表征与共现语音关联。使用包含大量代表性标志性手势的面谈对话数据集进行训练。通过与人工标注的成对手势相似度进行比较，对学习到的表征进行彻底的内在评估。此外，进行诊断性探测分析，以评估从学习到的表征中恢复可解释手势特征的可能性。结果表明，该方法与人工标注的手势相似度呈显著正相关，并且学习到的表征之间的相似性与对话交互动态相关的模式一致。此外，研究结果表明，可以从潜在表征中恢复有关手势形式的若干特征。总而言之，这项研究表明，多模态对比学习是学习手势表征的一种有前途的方法，为在更大规模的手势分析研究中使用这种表征打开了大门。

🔬 方法详解

问题定义：现有方法难以有效学习对话场景中协同手势的表征，因为手势的形态和意义受到复杂的上下文因素（如指代对象和说话人个性）的影响，导致手势具有很强的变异性。如何有效地捕捉手势与语音之间的关联，并学习到鲁棒且有意义的手势表征，是当前研究的痛点。

核心思路：论文的核心思路是利用对比学习，通过区分相似和不相似的手势样本，学习到能够反映手势内在语义和与语音关联的表征。通过多模态对比学习，将手势的骨骼信息和共现的语音信息结合起来，从而更好地理解手势的含义。

技术框架：该方法包含以下主要模块：1) 单模态预训练：分别使用骨骼数据和语音数据进行预训练，学习各自模态的表征。2) 多模态预训练：将骨骼数据和语音数据融合，进行多模态对比学习，学习模态间的关联。3) 对比学习：构建正负样本对，通过最大化正样本对之间的相似度，最小化负样本对之间的相似度，从而学习到区分性更强的手势表征。

关键创新：该方法最重要的创新点在于将对比学习应用于对话场景中的协同手势表征学习，并结合了单模态和多模态预训练。与传统的监督学习方法相比，对比学习能够更好地利用无标注数据，学习到更鲁棒和泛化的手势表征。此外，多模态预训练能够有效地将手势与语音关联起来，从而更好地理解手势的含义。

关键设计：在对比学习中，使用了InfoNCE损失函数，用于最大化正样本对之间的互信息，最小化负样本对之间的互信息。正样本对是指同一手势的不同视角或模态，负样本对是指不同的手势。网络结构方面，使用了Transformer网络来编码骨骼数据和语音数据，并使用余弦相似度来衡量不同表征之间的相似度。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法学习到的手势表征与人工标注的手势相似度呈显著正相关，验证了该方法的有效性。此外，诊断性探测分析表明，可以从学习到的表征中恢复有关手势形式的若干特征，例如手势的幅度、速度和方向。这些结果表明，该方法不仅能够学习到手势的语义信息，还能够捕捉到手势的形态特征。

🎯 应用场景

该研究成果可应用于人机交互、虚拟助手、手语识别、情感分析等领域。通过理解对话中的手势，可以提升人机交互的自然性和流畅性，使机器能够更好地理解人类的意图和情感。此外，该研究还可以为手语翻译和手势驱动的机器人控制提供技术支持，具有广泛的应用前景。

📄 摘要（原文）

In face-to-face dialogues, the form-meaning relationship of co-speech gestures varies depending on contextual factors such as what the gestures refer to and the individual characteristics of speakers. These factors make co-speech gesture representation learning challenging. How can we learn meaningful gestures representations considering gestures' variability and relationship with speech? This paper tackles this challenge by employing self-supervised contrastive learning techniques to learn gesture representations from skeletal and speech information. We propose an approach that includes both unimodal and multimodal pre-training to ground gesture representations in co-occurring speech. For training, we utilize a face-to-face dialogue dataset rich with representational iconic gestures. We conduct thorough intrinsic evaluations of the learned representations through comparison with human-annotated pairwise gesture similarity. Moreover, we perform a diagnostic probing analysis to assess the possibility of recovering interpretable gesture features from the learned representations. Our results show a significant positive correlation with human-annotated gesture similarity and reveal that the similarity between the learned representations is consistent with well-motivated patterns related to the dynamics of dialogue interaction. Moreover, our findings demonstrate that several features concerning the form of gestures can be recovered from the latent representations. Overall, this study shows that multimodal contrastive learning is a promising approach for learning gesture representations, which opens the door to using such representations in larger-scale gesture analysis studies.

Learning Co-Speech Gesture Representations in Dialogue through Contrastive Learning: An Intrinsic Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理