SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation

作者: Kun Zhao, Bohao Yang, Chen Tang, Chenghua Lin, Liang Zhan

分类: cs.CL

发布日期: 2024-05-24 (更新: 2024-05-30)

备注: Accepted by ACL2024 Findings

💡 一句话要点

提出SLIDE框架，融合大小语言模型解决开放域对话评估中的一对多问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放域对话评估 大型语言模型 小型语言模型 对比学习 语义相似度 自然语言处理 对话系统

📋 核心要点

开放域对话评估面临一对多难题，现有LLM方法在特定领域表现欠佳，可能受常识推理偏差影响。
SLIDE框架融合小型专业模型（SLM）和大型语言模型（LLM），提升评估的准确性和鲁棒性。
实验结果表明，SLIDE在分类和评估任务中达到SOTA，并与人类判断有更好的相关性。

📝 摘要（中文）

开放域对话系统中，标准答案的一对多问题长期以来对自动评估指标提出了挑战。尽管先前的工作已经展示了应用强大的大型语言模型（LLM）取得了一些成功，但现有方法仍然难以解决一对多问题，并且在特定领域场景中表现不佳。我们认为LLM中存在的常识推理偏差可能会阻碍其在特定领域评估中的表现。为了解决这两个问题，我们提出了一种新颖的框架SLIDE（Small and Large Integrated for Dialogue Evaluation），该框架利用小型专业模型（SLM）和LLM来评估开放域对话。我们的方法引入了几种技术：（1）对比学习，用于区分鲁棒和非鲁棒的响应嵌入；（2）一种新颖的语义敏感性指标，它将嵌入余弦距离与通过神经网络学习的相似性相结合；（3）一种整合SLM和LLM评估结果的策略。我们的实验结果表明，我们的方法在分类和评估任务中均实现了最先进的性能，并且SLIDE评估器与人类判断具有更好的相关性。我们的代码可在https://github.com/hegehongcha/SLIDE-ACL2024获得。

🔬 方法详解

问题定义：开放域对话评估中，由于标准答案存在一对多的情况，传统的自动评估指标难以准确衡量对话质量。现有方法，尤其是直接使用大型语言模型（LLM）的方法，虽然取得了一定进展，但在特定领域表现不佳，并且受到LLM自身常识推理偏差的影响，导致评估结果不准确。

核心思路：SLIDE框架的核心思路是结合小型专业模型（SLM）和大型语言模型（LLM）的优势。SLM专注于特定领域的知识，减少常识偏差的影响，而LLM则提供更广泛的语义理解能力。通过融合两者的评估结果，可以更全面、更准确地评估开放域对话的质量。

技术框架：SLIDE框架主要包含以下几个模块：1) 对比学习模块：用于训练SLM，区分鲁棒和非鲁棒的响应嵌入，提高SLM对语义相似性的判断能力。2) 语义敏感性指标模块：结合嵌入余弦距离和神经网络学习的相似性，更准确地衡量响应之间的语义相似度。3) 评估结果融合模块：将SLM和LLM的评估结果进行融合，得到最终的评估分数。整体流程是，首先使用对比学习训练SLM，然后分别使用SLM和LLM对对话响应进行评估，最后将两者的评估结果通过融合策略进行整合。

关键创新：SLIDE框架的关键创新在于：1) 融合SLM和LLM：克服了单一模型在开放域对话评估中的局限性。2) 对比学习：增强了SLM对鲁棒响应的识别能力。3) 语义敏感性指标：更准确地衡量了响应之间的语义相似度。与现有方法相比，SLIDE能够更有效地解决开放域对话评估中的一对多问题，并在特定领域表现出更好的性能。

关键设计：对比学习中，采用了三元组损失函数，鼓励相似的响应嵌入更接近，不相似的响应嵌入更远离。语义敏感性指标中，神经网络结构采用多层感知机（MLP），用于学习响应嵌入之间的相似度。评估结果融合模块中，采用了加权平均策略，根据SLM和LLM的置信度动态调整权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SLIDE框架在开放域对话评估任务中取得了state-of-the-art的性能。具体而言，SLIDE在分类和评估任务中均优于现有基线方法，并且与人类判断具有更好的相关性。例如，在某些数据集上，SLIDE的评估结果与人类判断的相关性提高了10%以上。

🎯 应用场景

SLIDE框架可应用于各种开放域对话系统的自动评估，例如聊天机器人、智能客服等。通过提供更准确的评估结果，可以帮助开发者更好地改进对话系统，提升用户体验。此外，该框架还可以用于对话数据的自动标注，降低人工标注的成本。

📄 摘要（原文）

The long-standing one-to-many problem of gold standard responses in open-domain dialogue systems presents challenges for automatic evaluation metrics. Though prior works have demonstrated some success by applying powerful Large Language Models (LLMs), existing approaches still struggle with the one-to-many problem, and exhibit subpar performance in domain-specific scenarios. We assume the commonsense reasoning biases within LLMs may hinder their performance in domainspecific evaluations. To address both issues, we propose a novel framework SLIDE (Small and Large Integrated for Dialogue Evaluation), that leverages both a small, specialised model (SLM), and LLMs for the evaluation of open domain dialogues. Our approach introduces several techniques: (1) Contrastive learning to differentiate between robust and non-robust response embeddings; (2) A novel metric for semantic sensitivity that combines embedding cosine distances with similarity learned through neural networks, and (3) a strategy for incorporating the evaluation results from both the SLM and LLMs. Our empirical results demonstrate that our approach achieves state-of-the-art performance in both the classification and evaluation tasks, and additionally the SLIDE evaluator exhibits better correlation with human judgements. Our code is available at https:// github.com/hegehongcha/SLIDE-ACL2024.

SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理