Active Listener: Continuous Generation of Listener's Head Motion Response in Dyadic Interactions

📄 arXiv: 2409.20188v1 📥 PDF

作者: Bishal Ghosh, Emma Li, Tanaya Guha

分类: cs.RO, cs.SD, eess.AS

发布日期: 2024-09-30

备注: 4+1 pages, 3 figures, 2 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于图的跨模态模型,用于生成对话中听者实时的头部运动响应

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 听者响应生成 头部运动估计 跨模态学习 图神经网络 人机交互

📋 核心要点

  1. 现有方法在生成听者响应方面存在挑战,通常需要手动标注或过度简化头部运动。
  2. 论文提出基于图的跨模态模型,直接从说话者语音生成听者的连续头部姿态,无需人工干预。
  3. 实验表明,该模型在IEMOCAP数据集上实现了较低的误差和较高的帧率,具备实际应用潜力。

📝 摘要(中文)

在双人对话中,上下文相关的非语言行为,如头部运动,反映了听者对说话者言语的反应,是对话的关键组成部分。尽管在生成协同语音手势方面取得了显著进展,但生成听者的响应仍然是一个挑战。本文提出了一个新任务:实时生成听者对说话者语音的连续头部运动响应。为此,我们提出了一个基于图的端到端跨模态模型,该模型以说话者的语音音频作为输入,直接生成听者的头部姿态角(横滚角、俯仰角、偏航角)。与以往工作不同,我们的方法完全是数据驱动的,不需要手动标注,也不过度简化头部运动为简单的点头和摇头。在IEMOCAP数据集上的双人对话会话的广泛评估表明,我们的模型产生了较低的总体误差(4.5度)和较高的帧率,从而表明其在现实世界人机交互系统中的可部署性。代码可在https://github.com/bigzen/Active-Listener 获取。

🔬 方法详解

问题定义:现有方法在生成对话中听者的头部运动响应时,要么依赖于手动标注,成本高昂,要么过度简化头部运动,例如仅考虑点头和摇头,无法捕捉真实对话中头部运动的细微变化。这限制了其在实际人机交互系统中的应用。

核心思路:论文的核心思路是利用深度学习技术,建立一个端到端的模型,直接从说话者的语音信号预测听者的头部运动。通过跨模态学习,模型能够捕捉语音和头部运动之间的复杂关系,从而生成更自然、更符合语境的听者响应。

技术框架:该模型采用基于图的跨模态架构。首先,语音特征被提取并输入到图神经网络中,用于捕捉语音的时序依赖关系。然后,图神经网络的输出被用于预测听者的头部姿态角(横滚角、俯仰角、偏航角)。整个框架是端到端可训练的,无需手动设计特征或规则。

关键创新:该论文的关键创新在于提出了一种完全数据驱动的方法,用于生成听者的连续头部运动响应。与以往工作相比,该方法不需要手动标注,也不过度简化头部运动。此外,该模型采用基于图的架构,能够有效地捕捉语音的时序依赖关系,从而生成更自然、更符合语境的听者响应。

关键设计:模型使用图卷积网络(GCN)来编码语音特征的时序信息。损失函数采用均方误差(MSE),用于衡量预测的头部姿态角与真实值之间的差异。模型的训练采用Adam优化器,学习率设置为0.001。头部姿态角包括roll, pitch, yaw三个维度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在IEMOCAP数据集上的实验结果表明,该模型能够以较低的总体误差(4.5度)生成听者的头部运动响应。此外,该模型还具有较高的帧率,能够实时生成响应,满足实际人机交互系统的需求。与现有方法相比,该模型在生成头部运动的自然性和准确性方面均有显著提升。

🎯 应用场景

该研究成果可应用于人机交互、虚拟助手、社交机器人等领域。通过使机器人能够生成自然的听者头部运动响应,可以提高人机交互的自然性和流畅性,增强用户的参与感和信任感。此外,该技术还可以用于改善在线会议和远程协作的体验,使沟通更加高效和富有情感。

📄 摘要(原文)

A key component of dyadic spoken interactions is the contextually relevant non-verbal gestures, such as head movements that reflect a listener's response to the interlocutor's speech. Although significant progress has been made in the context of generating co-speech gestures, generating listener's response has remained a challenge. We introduce the task of generating continuous head motion response of a listener in response to the speaker's speech in real time. To this end, we propose a graph-based end-to-end crossmodal model that takes interlocutor's speech audio as input and directly generates head pose angles (roll, pitch, yaw) of the listener in real time. Different from previous work, our approach is completely data-driven, does not require manual annotations or oversimplify head motion to merely nods and shakes. Extensive evaluation on the dyadic interaction sessions on the IEMOCAP dataset shows that our model produces a low overall error (4.5 degrees) and a high frame rate, thereby indicating its deployability in real-world human-robot interaction systems. Our code is available at - https://github.com/bigzen/Active-Listener