A Full-duplex Speech Dialogue Scheme Based On Large Language Models

📄 arXiv: 2405.19487v2 📥 PDF

作者: Peng Wang, Songshuo Lu, Yaohua Tang, Sijie Yan, Wei Xia, Yuanjun Xiong

分类: cs.CL

发布日期: 2024-05-29 (更新: 2024-10-29)

备注: Accepted to NeurIPS 2024


💡 一句话要点

提出基于LLM的全双工语音对话系统,显著降低对话延迟并提高交互精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全双工对话 大型语言模型 语音交互 神经有限状态机 实时响应

📋 核心要点

  1. 现有LLM对话系统通常为半双工模式,交互延迟高,影响用户体验。
  2. 论文提出一种全双工对话系统,通过LLM驱动神经FSM,实现同步感知和运动功能。
  3. 实验表明,该系统显著降低了对话延迟,并提高了打断精确率,性能优于现有系统。

📝 摘要(中文)

本文提出了一种生成式全双工对话系统,该系统基于一个经过精心对齐的大型语言模型(LLM),使其能够感知感知模块、运动功能模块以及一个包含两个状态的简单有限状态机(称为神经FSM)的概念。感知和运动功能模块协同工作,使系统能够同时说话和听取用户。LLM生成文本token以响应查询,并通过向神经FSM发送控制token自主决定开始响应、等待或中断用户。LLM的所有这些任务都作为对话序列化视图上的实时下一个token预测来执行。在模拟真实交互的自动质量评估中,与基于LLM的半双工对话系统相比,所提出的系统将平均对话响应延迟降低了三倍以上,并且在超过50%的评估交互中,响应时间小于500毫秒。该系统仅使用一个具有80亿参数的LLM,其打断精确率比现有的最佳商用语音对话LLM高8%。

🔬 方法详解

问题定义:现有基于大型语言模型(LLM)的对话系统通常采用半双工模式,即系统必须等待用户说完才能开始响应,反之亦然。这种模式导致了较高的对话延迟,降低了用户体验。此外,现有系统在处理用户中断和同步语音交互方面存在挑战。

核心思路:本文的核心思路是利用LLM同时处理语音输入和生成语音输出,实现全双工对话。通过引入感知模块、运动功能模块和神经有限状态机(FSM),LLM能够实时感知用户语音,并根据对话状态自主决定何时响应、等待或中断用户。这种设计允许系统在用户说话的同时进行思考和准备,从而显著降低对话延迟。

技术框架:该系统的整体架构包括以下几个主要模块:1) 感知模块:负责将语音输入转换为文本;2) 运动功能模块:负责将文本输出转换为语音;3) 神经FSM:控制对话状态,决定LLM的行为(响应、等待、中断);4) LLM:作为核心的对话生成器,负责生成文本token以响应查询,并向神经FSM发送控制token。整个流程以实时token预测的方式进行,LLM在对话的序列化视图上进行操作。

关键创新:该论文最重要的技术创新点在于将LLM与神经FSM相结合,实现了全双工语音对话。传统的对话系统通常依赖于复杂的规则和手工设计的状态机,而本文提出的方法利用LLM的强大生成能力和神经FSM的控制能力,实现了更加灵活和自然的对话交互。此外,通过实时token预测的方式,系统能够以极低的延迟响应用户。

关键设计:神经FSM包含两个状态,具体状态转换逻辑未知。LLM通过预测特殊的控制token来控制神经FSM的状态,从而决定系统的行为。感知模块和运动功能模块的具体实现方式未知。损失函数和网络结构等技术细节未在摘要中提及。

🖼️ 关键图片

img_0

📊 实验亮点

该系统在自动质量评估中,与基于LLM的半双工对话系统相比,平均对话响应延迟降低了三倍以上。在超过50%的评估交互中,响应时间小于500毫秒。即使仅使用一个具有80亿参数的LLM,该系统的打断精确率也比现有的最佳商用语音对话LLM高8%。这些结果表明,该系统在性能和效率方面都具有显著优势。

🎯 应用场景

该研究成果可应用于智能助手、语音客服、人机协作机器人等领域,提供更自然、流畅的语音交互体验。全双工对话能力能够显著提升交互效率,并为用户带来更接近真人对话的感受。未来,该技术有望在教育、医疗、娱乐等领域发挥重要作用,例如,在语言学习中提供实时反馈,在远程医疗中进行高效问诊。

📄 摘要(原文)

We present a generative dialogue system capable of operating in a full-duplex manner, allowing for seamless interaction. It is based on a large language model (LLM) carefully aligned to be aware of a perception module, a motor function module, and the concept of a simple finite state machine (called neural FSM) with two states. The perception and motor function modules operate in tandem, allowing the system to speak and listen to the user simultaneously. The LLM generates textual tokens for inquiry responses and makes autonomous decisions to start responding to, wait for, or interrupt the user by emitting control tokens to the neural FSM. All these tasks of the LLM are carried out as next token prediction on a serialized view of the dialogue in real-time. In automatic quality evaluations simulating real-life interaction, the proposed system reduces the average conversation response latency by more than threefold compared with LLM-based half-duplex dialogue systems while responding within less than 500 milliseconds in more than 50% of evaluated interactions. Running an LLM with only 8 billion parameters, our system exhibits an 8% higher interruption precision rate than the best available commercial LLM for voice-based dialogue.