Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models

📄 arXiv: 2411.00023v2 📥 PDF

作者: Ognjen, Rudovic, Pranay Dighe, Yi Su, Vineet Garg, Sameer Dharur, Xiaochuan Niu, Ahmed H. Abdelaziz, Saurabh Adya, Ahmed Tewfik

分类: eess.AS, cs.AI, cs.CL, cs.SD

发布日期: 2024-10-28 (更新: 2024-11-04)


💡 一句话要点

利用大语言模型,提升虚拟助手后续对话中设备指向语音检测的准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 设备指向语音检测 大型语言模型 后续对话 虚拟助手 语音识别 上下文建模 ASR不确定性

📋 核心要点

  1. 传统虚拟助手需要重复唤醒词,影响用户体验,后续对话的设备指向语音检测是关键。
  2. 利用大语言模型,结合首次查询信息和ASR不确定性,辅助判断后续语音是否为设备指向。
  3. 实验表明,该方法显著降低了误报率,提升了后续对话中设备指向语音检测的准确性。

📝 摘要(中文)

本文探讨了利用大型语言模型(LLM)进行后续对话中设备指向语音检测(DDSD)的方法,旨在提升虚拟助手(VA)交互的自然性。该方法通过提示预训练的LLM或在LLM之上适配二元分类器,对首次查询进行建模,从而推断后续查询是否为设备指向语音。在设计LLM提示时,还利用了自动语音识别(ASR)的不确定性。在真实世界的后续对话数据集上的实验表明,与单独建模后续语音相比,该方法由于联合建模了先前的语音上下文和ASR不确定性,在固定10%的误拒绝率下,误报率降低了20-40%。

🔬 方法详解

问题定义:设备指向语音检测(DDSD)旨在判断用户语音是否针对虚拟助手,在后续对话中,需要准确判断用户是否在与虚拟助手持续交互。现有方法通常独立分析每次语音,忽略了对话历史信息,导致准确率不高,影响用户体验。

核心思路:论文的核心思路是利用大型语言模型(LLM)对首次查询进行建模,并将首次查询的信息融入到后续查询的判断中。通过考虑对话上下文,LLM能够更准确地判断后续语音是否为设备指向语音。同时,论文还考虑了ASR识别结果的不确定性,进一步提升了判断的鲁棒性。

技术框架:整体框架包含以下几个主要步骤:1) 用户发起首次查询;2) ASR系统将语音转换为文本;3) 利用首次查询文本提示预训练的LLM,或者在LLM之上训练二元分类器;4) 用户发起后续查询;5) ASR系统将后续查询语音转换为文本;6) LLM结合首次查询信息和后续查询文本,判断后续查询是否为设备指向语音。

关键创新:最重要的创新点在于将大型语言模型引入到设备指向语音检测中,并利用对话上下文信息进行判断。传统方法通常只关注当前语音,而忽略了对话历史。此外,论文还创新性地利用了ASR的不确定性信息,提升了模型的鲁棒性。

关键设计:论文设计了两种利用LLM的方法:一种是直接prompting预训练的LLM,另一种是在LLM之上训练一个二元分类器。在prompting方法中,论文精心设计了prompt的格式,以充分利用首次查询的信息和ASR的不确定性。在训练二元分类器时,论文使用了交叉熵损失函数,并对模型进行了微调。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在真实世界的后续对话数据集上,该方法在固定10%的误拒绝率下,误报率降低了20-40%,显著优于单独建模后续语音的方法。这表明联合建模先前的语音上下文和ASR不确定性能够有效提升设备指向语音检测的准确性。

🎯 应用场景

该研究成果可广泛应用于各种虚拟助手和智能音箱等设备,提升用户交互的自然性和流畅性。通过更准确地检测设备指向语音,可以减少误唤醒和漏唤醒的情况,从而改善用户体验。未来,该技术还可以应用于车载语音助手、智能家居控制等领域。

📄 摘要(原文)

Follow-up conversations with virtual assistants (VAs) enable a user to seamlessly interact with a VA without the need to repeatedly invoke it using a keyword (after the first query). Therefore, accurate Device-directed Speech Detection (DDSD) from the follow-up queries is critical for enabling naturalistic user experience. To this end, we explore the notion of Large Language Models (LLMs) and model the first query when making inference about the follow-ups (based on the ASR-decoded text), via prompting of a pretrained LLM, or by adapting a binary classifier on top of the LLM. In doing so, we also exploit the ASR uncertainty when designing the LLM prompts. We show on the real-world dataset of follow-up conversations that this approach yields large gains (20-40% reduction in false alarms at 10% fixed false rejects) due to the joint modeling of the previous speech context and ASR uncertainty, compared to when follow-ups are modeled alone.