ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling
作者: Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che
分类: cs.CL, cs.AI
发布日期: 2026-03-10
备注: Published at International Journal of Machine Learning and Cybernetics (IJMLC)
期刊: Int. J. Mach. Learn. & Cyber. 17, 127 (2026)
DOI: 10.1007/s13042-025-02823-6
💡 一句话要点
提出ESAinsTOD,一个统一的、端到端的、模式感知的指令调优框架,用于任务型对话建模。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 任务型对话系统 指令调优 模式感知 端到端建模 大型语言模型 对话生成 零样本学习
📋 核心要点
- 现有端到端任务型对话系统建模方法通常针对特定数据集,难以适应新的对话场景。
- ESAinsTOD框架通过指令对齐和模式对齐,使模型能够更好地理解任务指令和遵循预定义的模式。
- 实验结果表明,ESAinsTOD在多个基准测试中超越了现有最佳模型,并在低资源场景下表现出更强的泛化能力。
📝 摘要(中文)
本文提出ESAinsTOD,一个统一的、端到端的、模式感知的指令调优框架,用于通用的任务型对话建模。该框架引入了一种结构化的方法,超越了简单地微调大型语言模型(LLMs),从而能够灵活地适应各种对话任务流程和模式。具体来说,我们利用LLMs的全参数微调,并引入两种对齐机制,使生成的系统既具有指令感知能力又具有模式感知能力:(i)指令对齐,确保系统忠实地遵循任务指令,以完成来自异构TOD数据集的各种任务流程;(ii)模式对齐,鼓励系统做出符合指定模式的预测。此外,我们采用会话级别的端到端建模,允许系统访问对话历史中先前执行的任务流程的结果,从而弥合了指令调优范式与TOD系统的实际应用之间的差距。实验结果表明,虽然微调的LLM是一个强大的基线,但我们的结构化方法提供了显著的额外好处。我们的研究结果表明:(i)ESAinsTOD在端到端任务型对话建模基准(CamRest676、In-Car和MultiWOZ)上显著优于最先进的模型;(ii)更重要的是,它在各种低资源设置中表现出卓越的泛化能力,所提出的对齐机制显著增强了零样本性能;(iii)我们的指令调优范式大大提高了模型对数据噪声和级联错误的鲁棒性。
🔬 方法详解
问题定义:现有端到端任务型对话系统建模方法通常针对特定数据集进行定制,缺乏通用性,难以适应新的对话场景和任务流程。此外,现有方法在利用大型语言模型时,往往只是简单地进行微调,未能充分利用LLM的潜力,并且缺乏对任务指令和对话模式的显式建模。
核心思路:ESAinsTOD的核心思路是通过指令调优(Instruction Tuning)的方式,使LLM能够更好地理解和执行任务型对话。通过引入指令对齐和模式对齐机制,显式地将任务指令和对话模式融入到模型的学习过程中,从而提高模型的泛化能力和鲁棒性。
技术框架:ESAinsTOD采用端到端的建模方式,以LLM为基础,通过全参数微调进行优化。主要包含以下几个模块:1) 指令编码器:将任务指令编码成向量表示。2) 对话历史编码器:将对话历史编码成向量表示。3) 模式编码器:将对话模式(Schema)编码成向量表示。4) 解码器:根据指令、对话历史和模式的向量表示,生成对话回复。框架通过指令对齐和模式对齐机制,将指令和模式信息融入到模型的学习过程中。
关键创新:ESAinsTOD的关键创新在于提出了指令对齐和模式对齐机制。指令对齐旨在使模型能够忠实地遵循任务指令,完成各种任务流程。模式对齐旨在鼓励模型做出符合指定模式的预测,保证对话的合理性和一致性。此外,ESAinsTOD采用会话级别的端到端建模,允许模型访问对话历史中先前执行的任务流程的结果,从而更好地理解对话上下文。
关键设计:指令对齐通过对比学习的方式实现,鼓励模型生成的回复与任务指令的语义表示尽可能接近。模式对齐通过约束解码器的输出空间来实现,保证生成的回复符合预定义的对话模式。损失函数包括指令对齐损失、模式对齐损失和生成损失。网络结构采用Transformer架构,并针对任务型对话的特点进行了优化。
🖼️ 关键图片
📊 实验亮点
ESAinsTOD在CamRest676、In-Car和MultiWOZ等基准测试中显著优于现有最佳模型。在低资源设置下,ESAinsTOD表现出卓越的泛化能力,零样本性能得到显著提升。此外,ESAinsTOD对数据噪声和级联错误具有更强的鲁棒性。例如,在MultiWOZ数据集上,ESAinsTOD的Joint Goal Accuracy (JGA) 相比于基线模型提升了超过5%。
🎯 应用场景
ESAinsTOD框架可应用于各种任务型对话系统,例如智能客服、虚拟助手、车载对话系统等。该框架能够提高对话系统的通用性、泛化能力和鲁棒性,使其能够更好地适应不同的对话场景和用户需求。未来,该研究可以扩展到多语言对话、多模态对话等更复杂的场景。
📄 摘要(原文)
Existing end-to-end modeling methods for modular task-oriented dialog systems are typically tailored to specific datasets, making it challenging to adapt to new dialog scenarios. In this work, we propose ESAinsTOD, a unified End-to-end Schema-Aware Instruction-tuning framework for general Task-Oriented Dialog modeling. This framework introduces a structured methodology to go beyond simply fine-tuning Large Language Models (LLMs), enabling flexible adaptation to various dialogue task flows and schemas. Specifically, we leverage full-parameter fine-tuning of LLMs and introduce two alignment mechanisms to make the resulting system both instruction-aware and schema-aware: (i) instruction alignment, which ensures that the system faithfully follows task instructions to complete various task flows from heterogeneous TOD datasets; and (ii) schema alignment, which encourages the system to make predictions adhering to the specified schema. In addition, we employ session-level end-to-end modeling, which allows the system to access the results of previously executed task flows within the dialogue history, to bridge the gap between the instruction-tuning paradigm and the real-world application of TOD systems. Empirical results show that while a fine-tuned LLM serves as a strong baseline, our structured approach provides significant additional benefits. In particular, our findings indicate that: (i) ESAinsTOD outperforms state-of-the-art models by a significant margin on end-to-end task-oriented dialog modeling benchmarks: CamRest676, In-Car and MultiWOZ; (ii) more importantly, it exhibits superior generalization capabilities across various low-resource settings, with the proposed alignment mechanisms significantly enhancing zero-shot performance; and (iii) our instruction-tuning paradigm substantially improves the model's robustness against data noise and cascading errors.