SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation
作者: Kun Zhao, Bohao Yang, Chen Tang, Chenghua Lin, Liang Zhan
分类: cs.CL
发布日期: 2024-05-24 (更新: 2024-05-30)
备注: Accepted by ACL2024 Findings
💡 一句话要点
提出SLIDE框架,融合大小语言模型解决开放域对话评估中的一对多问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放域对话评估 大型语言模型 小型语言模型 对比学习 语义相似度 自然语言处理 对话系统
📋 核心要点
- 开放域对话评估面临一对多难题,现有LLM方法在特定领域表现欠佳,可能受常识推理偏差影响。
- SLIDE框架融合小型专业模型(SLM)和大型语言模型(LLM),提升评估的准确性和鲁棒性。
- 实验结果表明,SLIDE在分类和评估任务中达到SOTA,并与人类判断有更好的相关性。
📝 摘要(中文)
开放域对话系统中,标准答案的一对多问题长期以来对自动评估指标提出了挑战。尽管先前的工作已经展示了应用强大的大型语言模型(LLM)取得了一些成功,但现有方法仍然难以解决一对多问题,并且在特定领域场景中表现不佳。我们认为LLM中存在的常识推理偏差可能会阻碍其在特定领域评估中的表现。为了解决这两个问题,我们提出了一种新颖的框架SLIDE(Small and Large Integrated for Dialogue Evaluation),该框架利用小型专业模型(SLM)和LLM来评估开放域对话。我们的方法引入了几种技术:(1)对比学习,用于区分鲁棒和非鲁棒的响应嵌入;(2)一种新颖的语义敏感性指标,它将嵌入余弦距离与通过神经网络学习的相似性相结合;(3)一种整合SLM和LLM评估结果的策略。我们的实验结果表明,我们的方法在分类和评估任务中均实现了最先进的性能,并且SLIDE评估器与人类判断具有更好的相关性。我们的代码可在https://github.com/hegehongcha/SLIDE-ACL2024获得。
🔬 方法详解
问题定义:开放域对话评估中,由于标准答案存在一对多的情况,传统的自动评估指标难以准确衡量对话质量。现有方法,尤其是直接使用大型语言模型(LLM)的方法,虽然取得了一定进展,但在特定领域表现不佳,并且受到LLM自身常识推理偏差的影响,导致评估结果不准确。
核心思路:SLIDE框架的核心思路是结合小型专业模型(SLM)和大型语言模型(LLM)的优势。SLM专注于特定领域的知识,减少常识偏差的影响,而LLM则提供更广泛的语义理解能力。通过融合两者的评估结果,可以更全面、更准确地评估开放域对话的质量。
技术框架:SLIDE框架主要包含以下几个模块:1) 对比学习模块:用于训练SLM,区分鲁棒和非鲁棒的响应嵌入,提高SLM对语义相似性的判断能力。2) 语义敏感性指标模块:结合嵌入余弦距离和神经网络学习的相似性,更准确地衡量响应之间的语义相似度。3) 评估结果融合模块:将SLM和LLM的评估结果进行融合,得到最终的评估分数。整体流程是,首先使用对比学习训练SLM,然后分别使用SLM和LLM对对话响应进行评估,最后将两者的评估结果通过融合策略进行整合。
关键创新:SLIDE框架的关键创新在于:1) 融合SLM和LLM:克服了单一模型在开放域对话评估中的局限性。2) 对比学习:增强了SLM对鲁棒响应的识别能力。3) 语义敏感性指标:更准确地衡量了响应之间的语义相似度。与现有方法相比,SLIDE能够更有效地解决开放域对话评估中的一对多问题,并在特定领域表现出更好的性能。
关键设计:对比学习中,采用了三元组损失函数,鼓励相似的响应嵌入更接近,不相似的响应嵌入更远离。语义敏感性指标中,神经网络结构采用多层感知机(MLP),用于学习响应嵌入之间的相似度。评估结果融合模块中,采用了加权平均策略,根据SLM和LLM的置信度动态调整权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SLIDE框架在开放域对话评估任务中取得了state-of-the-art的性能。具体而言,SLIDE在分类和评估任务中均优于现有基线方法,并且与人类判断具有更好的相关性。例如,在某些数据集上,SLIDE的评估结果与人类判断的相关性提高了10%以上。
🎯 应用场景
SLIDE框架可应用于各种开放域对话系统的自动评估,例如聊天机器人、智能客服等。通过提供更准确的评估结果,可以帮助开发者更好地改进对话系统,提升用户体验。此外,该框架还可以用于对话数据的自动标注,降低人工标注的成本。
📄 摘要(原文)
The long-standing one-to-many problem of gold standard responses in open-domain dialogue systems presents challenges for automatic evaluation metrics. Though prior works have demonstrated some success by applying powerful Large Language Models (LLMs), existing approaches still struggle with the one-to-many problem, and exhibit subpar performance in domain-specific scenarios. We assume the commonsense reasoning biases within LLMs may hinder their performance in domainspecific evaluations. To address both issues, we propose a novel framework SLIDE (Small and Large Integrated for Dialogue Evaluation), that leverages both a small, specialised model (SLM), and LLMs for the evaluation of open domain dialogues. Our approach introduces several techniques: (1) Contrastive learning to differentiate between robust and non-robust response embeddings; (2) A novel metric for semantic sensitivity that combines embedding cosine distances with similarity learned through neural networks, and (3) a strategy for incorporating the evaluation results from both the SLM and LLMs. Our empirical results demonstrate that our approach achieves state-of-the-art performance in both the classification and evaluation tasks, and additionally the SLIDE evaluator exhibits better correlation with human judgements. Our code is available at https:// github.com/hegehongcha/SLIDE-ACL2024.