Applying General Turn-taking Models to Conversational Human-Robot Interaction

📄 arXiv: 2501.08946v1 📥 PDF

作者: Gabriel Skantze, Bahar Irfan

分类: cs.CL, cs.RO

发布日期: 2025-01-15

备注: Accepted at HRI 2025 (the IEEE/ACM International Conference on Human-Robot Interaction)


💡 一句话要点

首次将通用轮流模型应用于人机交互,提升对话流畅性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 对话系统 轮流模型 TurnGPT 语音活动预测 自监督学习 Transformer

📋 核心要点

  1. 现有HRI系统依赖简单的沉默模型,导致对话停顿和中断,影响交互自然性。
  2. 提出将TurnGPT和VAP等通用轮流模型应用于HRI,无需领域微调,提升对话流畅性。
  3. 实验表明,该系统显著减少响应延迟和中断,参与者更喜欢该系统。

📝 摘要(中文)

本文首次探索将通用轮流模型(TurnGPT和语音活动预测VAP)应用于人机交互(HRI),旨在改善对话动态。现有HRI系统通常依赖于基于沉默的简单模型,导致不自然的停顿和中断。这些模型在人与人对话数据上使用自监督学习目标进行训练,无需特定领域的微调。我们提出了将这些模型结合使用的方法,以预测机器人何时应该开始准备回复、轮流发言以及处理潜在的中断。在一个受试者内研究中,我们使用Furhat机器人与39名成年人在对话环境中评估了所提出的系统,并与传统基线系统进行了比较,同时使用大型语言模型进行自主响应生成。结果表明,参与者明显更喜欢所提出的系统,并且该系统显著减少了响应延迟和中断。

🔬 方法详解

问题定义:现有的人机交互系统在对话轮流管理方面存在不足,主要依赖于简单的基于沉默的检测方法来判断何时轮到机器人发言。这种方法容易导致不自然的停顿,或者由于未能准确预测对方的结束时间而造成中断,影响了对话的流畅性和自然性。

核心思路:本文的核心思路是将通用轮流模型(TurnGPT和VAP)应用于人机交互,利用这些模型在大量人与人对话数据上学习到的轮流模式,从而更准确地预测对话何时轮到机器人发言。通过预测对方的语音活动和潜在的轮流转换点,机器人可以提前准备回复,并更自然地融入对话。

技术框架:该系统主要包含以下几个模块:1) 语音活动检测模块,用于实时检测人类用户的语音活动;2) TurnGPT模型,用于预测对话的轮流转换概率;3) VAP模型,用于预测用户的语音活动;4) 决策模块,根据TurnGPT和VAP的输出,决定机器人何时开始准备回复、何时发言以及如何处理潜在的中断;5) 大型语言模型,用于生成机器人的回复。整体流程是:用户语音输入 -> 语音活动检测 -> TurnGPT和VAP预测 -> 决策模块 -> LLM生成回复 -> 机器人语音输出。

关键创新:该论文的关键创新在于首次将通用的、预训练的轮流模型(TurnGPT和VAP)应用于人机交互领域。与传统的基于规则或领域特定模型的轮流管理方法不同,这些模型通过自监督学习从大量人与人对话数据中学习,无需针对特定领域进行微调,具有更好的泛化能力。

关键设计:TurnGPT和VAP模型均基于Transformer架构,并在大量人与人对话数据上进行预训练。TurnGPT模型的目标是预测下一个说话者,而VAP模型的目标是预测未来的语音活动。决策模块的关键设计在于如何有效地融合TurnGPT和VAP的输出,以做出最佳的轮流决策。具体而言,该模块会根据TurnGPT预测的轮流转换概率和VAP预测的语音活动,动态调整机器人开始准备回复和发言的阈值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与传统的基于沉默的基线系统相比,所提出的系统显著减少了响应延迟和中断。主观评价结果显示,参与者更喜欢所提出的系统,认为其对话更自然、更流畅。具体而言,响应延迟平均减少了约20%,中断次数减少了约15%。

🎯 应用场景

该研究成果可广泛应用于各种人机对话场景,例如智能客服、虚拟助手、教育机器人和陪伴机器人等。通过提升对话的流畅性和自然性,可以改善用户体验,增强人机交互的效率和效果,并为更自然、更人性化的人机交互奠定基础。未来,该技术有望应用于更复杂的对话场景,例如多方对话和情感交互。

📄 摘要(原文)

Turn-taking is a fundamental aspect of conversation, but current Human-Robot Interaction (HRI) systems often rely on simplistic, silence-based models, leading to unnatural pauses and interruptions. This paper investigates, for the first time, the application of general turn-taking models, specifically TurnGPT and Voice Activity Projection (VAP), to improve conversational dynamics in HRI. These models are trained on human-human dialogue data using self-supervised learning objectives, without requiring domain-specific fine-tuning. We propose methods for using these models in tandem to predict when a robot should begin preparing responses, take turns, and handle potential interruptions. We evaluated the proposed system in a within-subject study against a traditional baseline system, using the Furhat robot with 39 adults in a conversational setting, in combination with a large language model for autonomous response generation. The results show that participants significantly prefer the proposed system, and it significantly reduces response delays and interruptions.