GEM: Graph-Enhanced Mixture-of-Experts with ReAct Agents for Dialogue State Tracking
作者: Ziqi Zhu, Adithya Suresh, Tomal Deb, Iman Abbasnejad
分类: cs.CL, cs.AI
发布日期: 2026-05-06
备注: 9 pages, 1 figure. Submitted to AAAI 2026. Also available at Amazon Science: https://www.amazon.science/publications/gem-graph-enhanced-mixture-of-experts-with-react-agents-for-dialogue-state-tracking
💡 一句话要点
GEM:图增强混合专家模型,结合ReAct智能体,提升对话状态追踪性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话状态追踪 混合专家模型 图神经网络 ReAct智能体 多领域对话 结构化推理 动态路由
📋 核心要点
- 现有大型语言模型在多领域对话状态追踪任务中,难以精确提取结构化信息,面临性能瓶颈。
- GEM框架结合图神经网络、微调T5-Small和ReAct智能体,通过动态专家路由和结构化推理提升DST性能。
- 在MultiWOZ 2.2数据集上,GEM的联合目标准确率达到65.19%,显著超越现有SOTA方法和端到端LLM方法。
📝 摘要(中文)
对话状态追踪(DST)需要从多领域对话中精确提取结构化信息,这是一项大型语言模型(LLM)尽管具有令人印象深刻的通用能力,但仍难以胜任的任务。我们提出了GEM(图增强混合专家模型),这是一个新颖的框架,它结合了语言模型和图结构对话理解,以及基于ReAct智能体的推理,以实现卓越的DST性能。我们的方法在专门的专家之间动态路由:一个捕获对话结构和turn级别依赖关系的图神经网络,以及一个用于序列建模的微调T5-Small编码器-解码器,由一个智能路由器协调。对于复杂的value生成任务,我们集成了ReAct智能体,这些智能体对对话上下文执行结构化推理。在MultiWOZ 2.2上,GEM实现了65.19%的联合目标准确率,大大优于端到端LLM方法(最佳:38.43%),并超过了最先进(SOTA)的方法,包括TOATOD(63.79%)、D3ST(58.70%)和Diable(56.48%)。我们的图增强混合专家架构与ReAct集成表明,将结构化对话表示与动态专家路由和基于智能体的推理相结合,为对话状态追踪提供了一个强大的范例,通过选择性专家激活,在保持计算效率的同时实现卓越的准确性。
🔬 方法详解
问题定义:对话状态追踪(DST)旨在从多轮对话中提取用户意图和对话状态,是构建对话系统的关键环节。现有方法,特别是端到端的大型语言模型,虽然具备一定的通用能力,但在处理复杂的多领域对话时,难以有效利用对话的结构化信息,导致性能下降。此外,对于需要复杂推理的value生成任务,现有方法缺乏有效的推理机制。
核心思路:GEM的核心思路是将语言模型和图结构对话理解相结合,并引入ReAct智能体进行结构化推理。通过图神经网络捕获对话的结构化信息和turn级别的依赖关系,利用T5-Small进行序列建模,并使用ReAct智能体处理复杂的value生成任务。这种混合专家模型能够动态地选择合适的专家来处理不同的子任务,从而提高整体性能。
技术框架:GEM的整体架构包含以下几个主要模块:1) 图神经网络(GNN):用于捕获对话的结构化信息和turn级别的依赖关系。2) T5-Small编码器-解码器:用于序列建模。3) 智能路由器:根据输入对话的状态,动态地选择合适的专家(GNN或T5-Small)进行处理。4) ReAct智能体:用于执行结构化推理,生成复杂的value。整个流程是,首先通过智能路由器选择合适的专家,然后由选定的专家处理输入对话,最后,如果需要生成复杂的value,则由ReAct智能体进行推理。
关键创新:GEM最重要的技术创新点在于其图增强的混合专家架构和ReAct智能体的集成。与现有方法相比,GEM能够更有效地利用对话的结构化信息,并通过动态专家路由机制,选择最适合处理当前任务的专家。ReAct智能体的引入使得GEM能够处理需要复杂推理的value生成任务,从而进一步提升了整体性能。
关键设计:GNN的具体结构未知,但推测使用了图注意力机制来学习节点之间的依赖关系。T5-Small使用了预训练的权重,并通过微调来适应DST任务。智能路由器的具体实现方式未知,但推测使用了某种分类器来判断应该选择哪个专家。ReAct智能体的具体实现方式未知,但推测使用了prompting技术来引导智能体进行推理。损失函数未知,但推测使用了交叉熵损失函数来训练GNN和T5-Small。
🖼️ 关键图片
📊 实验亮点
GEM在MultiWOZ 2.2数据集上取得了显著的性能提升,联合目标准确率达到65.19%,超过了现有SOTA方法TOATOD(63.79%)、D3ST(58.70%)和Diable(56.48%),并且大幅领先于端到端LLM方法(最佳:38.43%)。这表明GEM在对话状态追踪任务中具有强大的竞争力。
🎯 应用场景
GEM框架可应用于各种对话系统,例如智能客服、虚拟助手和任务型对话系统。通过提高对话状态追踪的准确性,GEM可以帮助这些系统更好地理解用户意图,从而提供更个性化和高效的服务。未来,GEM可以扩展到更复杂的对话场景,例如多轮对话和开放域对话。
📄 摘要(原文)
Dialogue State Tracking (DST) requires precise extraction of structured information from multi-domain conversations, a task where Large Language Models (LLMs) struggle despite their impressive general capabilities. We present GEM (Graph-Enhanced Mixture-of-Experts), a novel framework that combines language models and graph-structured dialogue understanding with ReAct agent-based reasoning for superior DST performance. Our approach dynamically routes between specialized experts: a Graph Neural Network that captures dialogue structure and turn-level dependencies, and a finetuned T5-Small encoder-decoder for sequence modeling, coordinated by an intelligent router. For complex value generation tasks, we integrate ReAct agents that perform structured reasoning over dialogue context. On MultiWOZ 2.2, GEM achieves 65.19% Joint Goal Accuracy, substantially outperforming end-to-end LLM approaches (best: 38.43%) and surpassing state-of-the-art (SOTA) methods including TOATOD (63.79%), D3ST (58.70%), and Diable (56.48%). Our graph-enhanced mixture-of-experts architecture with ReAct integration demonstrates that combining structured dialogue representation with dynamic expert routing and agent-based reasoning provides a powerful paradigm for dialogue state tracking, achieving superior accuracy while maintaining computational efficiency through selective expert activation.