Enabling Conversational Behavior Reasoning Capabilities in Full-Duplex Speech
作者: Shuchang Pan, Siddharth Banerjee, Dhruv Hebbar, Siddhant Patel, Akshaj Gupta, Kan Jen Cheng, Hanjo Kim, Zeyi Austin Li, Martin Q. Ma, Tingle Li, Gopala Anumanchipalli, Jiachen Lian
分类: cs.CL, cs.AI
发布日期: 2025-12-25
💡 一句话要点
提出基于思维图谱的对话行为推理框架,提升全双工语音交互系统的自然性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全双工语音 对话行为推理 思维图谱 因果推理 多模态Transformer
📋 核心要点
- 现有全双工交互系统难以捕捉人类对话中隐含的思维链,导致交互不够自然。
- 论文提出基于思维图谱(GoT)的因果推理框架,建模意图到行动的转化过程。
- 实验表明,该框架能有效检测对话行为,生成可解释的推理链,并为会话推理提供基准。
📝 摘要(中文)
本文提出了一种框架,通过在思维图谱(GoT)中建模因果推理,从而实现对会话行为的推理。该方法通过分层标注方案形式化了意图到行动的路径,预测高级的交流意图和低级的语音行为,以学习它们的因果和时间依赖性。为了训练该系统,开发了一个混合语料库,该语料库将可控的、事件丰富的模拟与人工标注的理由和真实的会话语音配对。GoT框架将流式预测构建为不断演化的图,使多模态Transformer能够预测下一个语音行为,为其决策生成简洁的理由,并动态地完善其推理。在合成和真实双工对话上的实验表明,该框架提供了稳健的行为检测,产生了可解释的推理链,并为全双工口语对话系统中会话推理的基准测试奠定了基础。
🔬 方法详解
问题定义:现有全双工对话系统难以理解人类对话中隐含的意图和行为之间的因果关系,导致系统无法像人类一样自然地进行对话。现有方法通常缺乏对会话行为的推理能力,难以预测下一步的语音行为,也无法解释其决策过程。
核心思路:论文的核心思路是将对话行为建模为思维图谱(Graph-of-Thoughts, GoT)中的因果推理过程。通过预测高级的交流意图和低级的语音行为,并学习它们之间的因果和时间依赖性,从而实现对会话行为的推理。这种方法能够捕捉人类对话中意图到行动的转化过程,使系统能够更好地理解和预测对话行为。
技术框架:该框架包含以下主要模块:1) 分层标注模块:对对话数据进行分层标注,包括高级的交流意图和低级的语音行为。2) 思维图谱构建模块:将标注后的对话数据构建成思维图谱,图中的节点表示意图和行为,边表示它们之间的因果和时间依赖性。3) 多模态Transformer模型:利用多模态Transformer模型对思维图谱进行推理,预测下一个语音行为,并生成相应的理由。4) 动态推理优化模块:动态地完善推理过程,提高预测的准确性。
关键创新:该论文的关键创新在于提出了基于思维图谱的对话行为推理框架。与现有方法相比,该框架能够更好地捕捉人类对话中意图和行为之间的因果关系,从而实现更自然的对话交互。此外,该框架还能够生成可解释的推理链,使人们能够理解系统的决策过程。
关键设计:论文设计了一个混合语料库,包含可控的、事件丰富的模拟数据和人工标注的真实对话数据。分层标注方案包括高级交流意图(如提问、请求)和低级语音行为(如陈述、确认)。多模态Transformer模型融合了语音、文本和视觉信息。损失函数包括行为预测损失和理由生成损失,以提高预测的准确性和可解释性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在合成和真实双工对话中均表现出稳健的行为检测能力,并能生成可解释的推理链。具体性能数据未知,但论文强调该框架为全双工口语对话系统中会话推理的基准测试奠定了基础,暗示了其优越性。
🎯 应用场景
该研究成果可应用于各种全双工语音交互系统,如智能助手、对话机器人、人机协作等。通过提升系统的会话行为推理能力,可以实现更自然、流畅、高效的人机交互,提高用户体验,并有望在教育、医疗等领域发挥重要作用。
📄 摘要(原文)
Human conversation is organized by an implicit chain of thoughts that manifests as timed speech acts. Capturing this causal pathway is key to building natural full-duplex interactive systems. We introduce a framework that enables reasoning over conversational behaviors by modeling this process as causal inference within a Graph-of-Thoughts (GoT). Our approach formalizes the intent-to-action pathway with a hierarchical labeling scheme, predicting high-level communicative intents and low-level speech acts to learn their causal and temporal dependencies. To train this system, we develop a hybrid corpus that pairs controllable, event-rich simulations with human-annotated rationales and real conversational speech. The GoT framework structures streaming predictions as an evolving graph, enabling a multimodal transformer to forecast the next speech act, generate concise justifications for its decisions, and dynamically refine its reasoning. Experiments on both synthetic and real duplex dialogues show that the framework delivers robust behavior detection, produces interpretable reasoning chains, and establishes a foundation for benchmarking conversational reasoning in full duplex spoken dialogue systems.