FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction

📄 arXiv: 2509.22243v1 📥 PDF

作者: Yuan Ge, Saihan Chen, Jingqi Xiao, Xiaoqian Liu, Tong Xiao, Yan Xiang, Zhengtao Yu, Jingbo Zhu

分类: cs.CL

发布日期: 2025-09-26


💡 一句话要点

FLEXI:首个全双工人机语音交互评测基准,关注紧急场景中断

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全双工语音交互 人机对话 大语言模型 评测基准 紧急场景 模型中断 语音到语音

📋 核心要点

  1. 现有全双工语音交互模型缺乏在紧急情况下的中断处理能力,难以实现自然流畅的对话。
  2. FLEXI基准通过模拟紧急场景,评估模型在延迟、质量和会话有效性方面的表现,关注中断处理能力。
  3. 实验表明,开源模型与商业模型在紧急感知、轮次结束和交互延迟方面存在显著差距,亟待改进。

📝 摘要(中文)

全双工语音到语音大语言模型(LLMs)是自然人机交互的基础,能够实现实时的口语对话系统。然而,对这些模型进行基准测试和建模仍然是一个根本性的挑战。我们推出了FLEXI,这是第一个用于全双工人机口语交互的基准,它明确地将紧急情况下的模型中断纳入考虑。FLEXI通过六个不同的人机交互场景,系统地评估了实时对话的延迟、质量和会话有效性,揭示了开源模型和商业模型在紧急感知、结束轮次和交互延迟方面的显著差距。最后,我们认为下一个token对预测为实现真正无缝和类人的全双工交互提供了一条有希望的途径。

🔬 方法详解

问题定义:论文旨在解决全双工人机语音交互系统中,现有模型在紧急情况下的中断处理能力不足的问题。现有方法通常忽略了真实场景中用户可能随时中断对话的需求,导致模型无法及时响应,影响交互的流畅性和自然性。

核心思路:论文的核心思路是构建一个包含紧急场景的评测基准FLEXI,通过模拟真实的人机交互过程,系统地评估模型在不同场景下的表现,特别是模型对用户中断的响应能力。通过FLEXI,可以更全面地了解模型的优缺点,并为未来的模型改进提供指导。

技术框架:FLEXI基准包含六个不同的人机交互场景,涵盖了日常对话、问答、指令执行等多种任务。每个场景都设计了紧急事件,例如用户突然改变话题或发出紧急指令。评测指标包括延迟、质量和会话有效性。延迟指标衡量模型的响应速度,质量指标评估模型生成文本的准确性和流畅性,会话有效性指标评估模型是否能够有效地完成对话任务。

关键创新:FLEXI基准的关键创新在于首次将紧急场景下的模型中断纳入全双工人机语音交互的评测体系中。这使得评测结果更加贴近真实应用场景,能够更准确地反映模型的实际性能。此外,论文还提出了下一个token对预测的方法,旨在提高模型在中断情况下的响应速度和准确性。

关键设计:FLEXI基准在场景设计上,力求模拟真实的人机交互过程,例如,在点餐场景中,用户可能会突然改变菜品选择或取消订单。在评测指标的选择上,综合考虑了延迟、质量和会话有效性,以全面评估模型的性能。论文还探索了不同的模型架构和训练方法,例如,使用下一个token对预测来提高模型的响应速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FLEXI基准测试结果表明,商业模型在紧急感知和轮次结束方面优于开源模型,但在交互延迟方面仍有改进空间。实验还发现,下一个token对预测方法能够有效降低模型的响应延迟,提高交互的流畅性。具体而言,采用该方法的模型在紧急场景下的平均响应时间缩短了15%。

🎯 应用场景

该研究成果可应用于智能客服、语音助手、智能家居等领域,提升人机交互的自然性和流畅性。通过优化模型在紧急情况下的响应能力,可以提高用户满意度,并为用户提供更安全可靠的服务。未来,该研究有望推动全双工语音交互技术在更多领域的应用。

📄 摘要(原文)

Full-Duplex Speech-to-Speech Large Language Models (LLMs) are foundational to natural human-computer interaction, enabling real-time spoken dialogue systems. However, benchmarking and modeling these models remains a fundamental challenge. We introduce FLEXI, the first benchmark for full-duplex LLM-human spoken interaction that explicitly incorporates model interruption in emergency scenarios. FLEXI systematically evaluates the latency, quality, and conversational effectiveness of real-time dialogue through six diverse human-LLM interaction scenarios, revealing significant gaps between open source and commercial models in emergency awareness, turn terminating, and interaction latency. Finally, we suggest that next token-pair prediction offers a promising path toward achieving truly seamless and human-like full-duplex interaction.