Conversational Behavior Modeling Foundation Model With Multi-Level Perception

作者: Dingkun Zhou, Shuchang Pan, Jiachen Lian, Siddharth Banerjee, Sarika Pasumarthy, Dhruv Hebbar, Siddhant Patel, Zeyi Austin Li, Kan Jen Cheng, Sanay Bordia, Krish Patel, Akshaj Gupta, Tingle Li, Gopala Anumanchipalli

分类: cs.CL, cs.AI

发布日期: 2026-02-11

💡 一句话要点

提出基于多层感知的对话行为建模基础模型，用于构建自然全双工交互系统。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对话行为建模 多层感知 思维图 全双工对话系统 人机交互

📋 核心要点

现有对话系统难以捕捉人类对话中隐含的思维链，导致交互不自然，本文旨在解决这一问题。
论文提出一种基于多层感知的对话行为建模框架，通过思维图推理对话行为，学习意图和语音行为的依赖关系。
实验表明，该框架在行为检测和推理链生成方面表现出色，为全双工对话系统中的对话推理奠定基础。

📝 摘要（中文）

本文提出了一种对话行为建模框架，该框架将人类对话过程建模为多层感知，并通过思维图（Graph-of-Thoughts, GoT）对对话行为进行推理。该方法通过分层标注方案形式化了意图到行动的路径，预测高层沟通意图和低层语音行为，从而学习它们之间的因果和时间依赖关系。为了训练该系统，作者构建了一个高质量语料库，该语料库将可控的、事件丰富的对话数据与人工标注标签配对。GoT框架将流式预测构建为不断演化的图，使Transformer能够预测下一个语音行为，为其决策生成简洁的理由，并动态地改进其推理。在合成和真实双工对话上的实验表明，该框架能够提供稳健的行为检测，产生可解释的推理链，并为全双工口语对话系统中的对话推理建立基准。

🔬 方法详解

问题定义：现有对话系统难以捕捉人类对话中隐含的思维链，导致交互不自然，无法实现流畅的全双工交互。现有方法通常缺乏对高层沟通意图和低层语音行为之间因果和时间依赖关系的建模，导致系统难以理解和预测对话行为。

核心思路：论文的核心思路是将人类对话过程建模为多层感知，并利用思维图（GoT）对对话行为进行推理。通过分层标注方案，将对话行为分解为高层沟通意图和低层语音行为，并学习它们之间的因果和时间依赖关系。这种方法能够更好地捕捉对话的内在逻辑，从而实现更自然和流畅的交互。

技术框架：该框架包含以下主要模块：1) 多层感知模块，用于将对话输入转换为高层沟通意图和低层语音行为的表示；2) 思维图（GoT）构建模块，用于将流式预测构建为不断演化的图，节点表示对话行为，边表示行为之间的依赖关系；3) Transformer推理模块，用于基于GoT预测下一个语音行为，并生成简洁的理由。整个流程是一个循环迭代的过程，不断更新GoT并预测下一个行为。

关键创新：该论文的关键创新在于：1) 提出了一种基于多层感知的对话行为建模框架，能够更好地捕捉对话的内在逻辑；2) 引入了思维图（GoT）的概念，用于结构化地表示对话行为及其依赖关系；3) 构建了一个高质量的、事件丰富的对话语料库，用于训练和评估该框架。与现有方法相比，该方法能够提供更稳健的行为检测和更可解释的推理链。

关键设计：该框架的关键设计包括：1) 分层标注方案，用于将对话行为分解为高层沟通意图和低层语音行为；2) GoT的构建方式，如何将流式预测转化为图结构，以及如何更新图结构；3) Transformer推理模块的网络结构和训练方式，如何利用GoT的信息进行预测和理由生成。具体的参数设置、损失函数和网络结构等细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

论文在合成和真实双工对话上进行了实验，结果表明该框架能够提供稳健的行为检测，并产生可解释的推理链。具体的性能数据和对比基线在摘要中未提及，属于未知信息。但总体而言，实验结果验证了该框架的有效性，并为全双工口语对话系统中的对话推理建立了一个新的基准。

🎯 应用场景

该研究成果可应用于构建更自然、更智能的全双工口语对话系统，例如智能助手、客服机器人、教育机器人等。通过理解用户的意图和预测其行为，系统可以更有效地进行沟通和协作，提供更个性化的服务。未来，该技术有望应用于更广泛的人机交互场景，提升用户体验。

📄 摘要（原文）

Human conversation is organized by an implicit chain of thoughts that manifests as timed speech acts. Capturing this perceptual pathway is key to building natural full-duplex interactive systems. We introduce a framework that models this process as multi-level perception, and then reasons over conversational behaviors via a Graph-of-Thoughts (GoT). Our approach formalizes the intent-to-action pathway with a hierarchical labeling scheme, predicting high-level communicative intents and low-level speech acts to learn their causal and temporal dependencies. To train this system, we develop a high quality corpus that pairs controllable, event-rich dialogue data with human-annotated labels. The GoT framework structures streaming predictions as an evolving graph, enabling a transformer to forecast the next speech act, generate concise justifications for its decisions, and dynamically refine its reasoning. Experiments on both synthetic and real duplex dialogues show that the framework delivers robust behavior detection, produces interpretable reasoning chains, and establishes a foundation for benchmarking conversational reasoning in full duplex spoken dialogue systems.

Conversational Behavior Modeling Foundation Model With Multi-Level Perception

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理