"Seeing the Big through the Small": Can LLMs Approximate Human Judgment Distributions on NLI from a Few Explanations?

📄 arXiv: 2406.17600v2 📥 PDF

作者: Beiduo Chen, Xinpeng Wang, Siyao Peng, Robert Litschko, Anna Korhonen, Barbara Plank

分类: cs.CL

发布日期: 2024-06-25 (更新: 2024-10-04)

备注: Accepted by EMNLP 2024 Findings, 24 pages, 9 figures


💡 一句话要点

利用少量解释,LLM可近似自然语言推理中人类判断分布,提升标注效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言推理 人类判断分布 大型语言模型 标注变异 模型评估

📋 核心要点

  1. 现有NLI方法依赖大量标注或专家解释,前者成本高昂,后者难以扩展。
  2. 利用少量专家解释,提升LLM近似人类判断分布(HJD)的能力,从而高效获取HJD。
  3. 实验表明,少量解释显著提升LLM的HJD近似能力,但微调结果需结合全局形状度量评估。

📝 摘要(中文)

人类标注变异(HLV)是一种宝贵的信息来源,它产生于多个标注者因有效原因对同一实例给出不同标签的情况。在自然语言推理(NLI)中,早期捕捉HLV的方法要么从大量众包工人收集标注以表示人类判断分布(HJD),要么使用专家语言学家为他们选择的标签提供详细解释。前者提供更密集的HJD信息,但资源密集;后者提供更丰富的文本信息,但难以扩展到大量人类判断者。此外,大型语言模型(LLM)越来越多地被用作评估器(“LLM判断者”),但结果好坏参半,且很少有工作旨在研究HJD。本研究提出利用LLM,使用少量的专家标签和解释来近似HJD。实验表明,少量解释显著提高了LLM近似HJD的能力,无论是否使用显式标签,从而为扩展HJD标注提供了一种解决方案。然而,使用LLM生成的模型判断分布(MJD)微调较小的软标签感知模型会产生部分不一致的结果:虽然距离相似,但它们产生的微调模型和可视化分布差异很大。我们表明,除了实例级别的距离度量外,还需要补充全局级别的形状度量和可视化,以更有效地评估MJD与人类判断分布的匹配程度。

🔬 方法详解

问题定义:论文旨在解决自然语言推理(NLI)任务中,如何高效获取并利用人类判断分布(HJD)的问题。现有方法主要有两种:一是通过大量众包标注获取HJD,但成本高昂;二是通过专家语言学家提供详细解释,但难以扩展到大规模数据集。这两种方法都存在局限性,阻碍了对HLV的充分利用。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大能力,通过少量专家提供的标签和解释,来近似人类判断分布(HJD)。这种方法旨在结合两种现有方法的优点,即利用专家知识的丰富性,同时借助LLM实现规模化。

技术框架:整体框架包含以下几个主要步骤:1) 收集少量专家标注和解释;2) 使用LLM,结合专家标注和解释,生成模型判断分布(MJD);3) 使用MJD微调较小的软标签感知模型;4) 使用实例级别距离度量、全局级别形状度量和可视化方法,评估MJD与HJD的匹配程度。

关键创新:最重要的技术创新点在于,提出了利用少量解释来显著提升LLM近似HJD的能力。这使得在资源有限的情况下,也能有效地获取和利用人类判断分布信息。此外,论文还强调了使用全局形状度量和可视化方法来评估MJD的重要性,弥补了仅使用实例级别距离度量的不足。

关键设计:论文的关键设计包括:1) 如何有效地将专家解释融入LLM的判断过程中(具体实现细节未知);2) 如何设计全局形状度量来评估MJD与HJD的相似性(具体度量方法未知);3) 如何通过可视化方法直观地比较MJD和HJD的分布差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,少量解释能够显著提高LLM近似HJD的能力,无论是否使用显式标签。然而,使用LLM生成的MJD微调较小的模型时,仅使用实例级别的距离度量可能导致误判,需要结合全局形状度量和可视化方法进行更全面的评估。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于自然语言处理的多个领域,例如提高NLI模型的鲁棒性和泛化能力,改进对话系统的情感理解和回复生成,以及提升文本分类任务的准确性和可靠性。通过更有效地利用人类判断变异,可以构建更贴近人类认知的智能系统。

📄 摘要(原文)

Human label variation (HLV) is a valuable source of information that arises when multiple human annotators provide different labels for valid reasons. In Natural Language Inference (NLI) earlier approaches to capturing HLV involve either collecting annotations from many crowd workers to represent human judgment distribution (HJD) or use expert linguists to provide detailed explanations for their chosen labels. While the former method provides denser HJD information, obtaining it is resource-intensive. In contrast, the latter offers richer textual information but it is challenging to scale up to many human judges. Besides, large language models (LLMs) are increasingly used as evaluators ("LLM judges") but with mixed results, and few works aim to study HJDs. This study proposes to exploit LLMs to approximate HJDs using a small number of expert labels and explanations. Our experiments show that a few explanations significantly improve LLMs' ability to approximate HJDs with and without explicit labels, thereby providing a solution to scale up annotations for HJD. However, fine-tuning smaller soft-label aware models with the LLM-generated model judgment distributions (MJDs) presents partially inconsistent results: while similar in distance, their resulting fine-tuned models and visualized distributions differ substantially. We show the importance of complementing instance-level distance measures with a global-level shape metric and visualization to more effectively evaluate MJDs against human judgment distributions.