Speak or Stay Silent: Context-Aware Turn-Taking in Multi-Party Dialogue

📄 arXiv: 2603.11409v1 📥 PDF

作者: Kratika Bhagtani, Mrinal Anand, Yu Chen Xu, Amit Kumar Singh Yadav

分类: cs.AI, cs.CL

发布日期: 2026-03-12

备注: Submitted for review to Interspeech 2026


💡 一句话要点

提出上下文感知轮流转换方法,提升多方对话中语音助手表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多方对话 语音助手 轮流转换 上下文感知 大型语言模型

📋 核心要点

  1. 现有语音助手在多人对话中频繁响应停顿,造成干扰,缺乏上下文感知。
  2. 提出上下文感知的轮流转换方法,根据对话上下文决定助手是否发言。
  3. 构建包含12万对话的基准数据集,并使用监督微调显著提升模型性能。

📝 摘要(中文)

现有的语音AI助手将每个检测到的停顿都视为发言邀请。这在双人对话中有效,但在多人环境中,AI助手与多个说话者共同参与时,停顿非常频繁且含义模糊。如果助手在每次停顿时都发言,则会变得具有干扰性而非有用。本文提出了上下文感知的轮流转换:在每次检测到的停顿时,根据完整的对话上下文,我们的方法决定助手应该发言还是保持沉默。我们引入了一个包含超过12万个标记对话的基准,涵盖三个多方语料库。评估了八个最新的大型语言模型,我们发现它们在零样本提示下始终无法进行上下文感知的轮流转换。然后,我们提出了一种带有推理轨迹的监督微调方法,将平衡准确率提高了高达23个百分点。我们的研究结果表明,上下文感知的轮流转换不是一种涌现能力,必须经过明确的训练。

🔬 方法详解

问题定义:论文旨在解决多方对话场景下,语音AI助手如何正确判断何时应该发言的问题。现有语音助手简单地将每个停顿都视为发言机会,导致在多人对话中频繁且不适当地打断对话,用户体验差。痛点在于缺乏对上下文的理解,无法区分真正的发言邀请和普通的对话停顿。

核心思路:论文的核心思路是让AI助手具备上下文感知能力,通过分析对话历史、说话人身份、当前话题等信息,判断当前停顿是否意味着轮到AI助手发言。这种方法模拟了人类在多人对话中的轮流转换策略,避免了不必要的打断。

技术框架:整体框架包含以下几个主要步骤:1) 收集并标注多方对话数据,构建包含上下文信息的轮流转换决策数据集;2) 使用大型语言模型(LLM)作为基础模型,输入对话历史和当前停顿信息;3) 通过监督微调,训练LLM学习上下文感知的轮流转换策略;4) 在推理阶段,LLM根据输入上下文,输出助手应该发言或保持沉默的决策。

关键创新:最重要的创新点在于将上下文感知引入到语音助手的轮流转换决策中。与以往简单基于停顿判断的方法不同,该方法考虑了更丰富的对话信息,使助手能够更智能地参与对话。此外,论文还提出了使用推理轨迹进行监督微调的方法,进一步提升了模型的性能。

关键设计:论文的关键设计包括:1) 构建了包含12万个对话的大规模多方对话数据集,为模型训练提供了充足的数据;2) 使用了多个大型语言模型作为基础模型,并比较了它们在零样本和微调后的性能;3) 采用了监督微调方法,并引入了推理轨迹作为额外的训练信号,帮助模型学习更复杂的推理过程;4) 使用平衡准确率作为评估指标,更全面地衡量模型在不同类别上的表现。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在零样本情况下,现有大型语言模型在上下文感知轮流转换任务上表现不佳。通过监督微调,论文提出的方法将平衡准确率提高了高达23个百分点,显著优于基线模型。这表明上下文感知轮流转换并非大型语言模型的涌现能力,需要通过明确的训练才能实现。

🎯 应用场景

该研究成果可应用于智能音箱、车载语音助手、会议记录系统等多种场景,提升多方对话中语音助手的用户体验。通过更智能的轮流转换策略,助手可以更自然地融入对话,提供更及时、更相关的帮助,避免不必要的干扰,从而提高工作效率和沟通质量。未来,该技术还可以扩展到其他类型的对话系统,例如客服机器人和教育机器人。

📄 摘要(原文)

Existing voice AI assistants treat every detected pause as an invitation to speak. This works in dyadic dialogue, but in multi-party settings, where an AI assistant participates alongside multiple speakers, pauses are abundant and ambiguous. An assistant that speaks on every pause becomes disruptive rather than useful. In this work, we formulate context-aware turn-taking: at every detected pause, given the full conversation context, our method decides whether the assistant should speak or stay silent. We introduce a benchmark of over 120K labeled conversations spanning three multi-party corpora. Evaluating eight recent large language models, we find that they consistently fail at context-aware turn-taking under zero-shot prompting. We then propose a supervised fine-tuning approach with reasoning traces, improving balanced accuracy by up to 23 percentage points. Our findings suggest that context-aware turn-taking is not an emergent capability; it must be explicitly trained.