Evaluating Generative Language Models in Information Extraction as Subjective Question Correction

📄 arXiv: 2404.03532v1 📥 PDF

作者: Yuchen Fan, Yantao Liu, Zijun Yao, Jifan Yu, Lei Hou, Juanzi Li

分类: cs.CL

发布日期: 2024-04-04

备注: Accepted by LREC-COLING 2024, short paper

🔗 代码/项目: GITHUB


💡 一句话要点

提出SQC-Score以解决信息提取中的评估不准确问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息提取 大型语言模型 主观问题纠正 自然语言推理 评估方法 模型微调 语义一致性

📋 核心要点

  1. 现有评估方法在信息提取任务中存在指标不准确和基准不完整的问题,导致LLMs性能被低估。
  2. 本文提出的SQC-Score方法通过主观问题纠正数据微调LLMs,改善模型输出与真实标签的匹配。
  3. 实验结果显示,SQC-Score在三项信息提取任务中优于传统评估指标,获得了人类标注者的更高认可。

📝 摘要(中文)

现代大型语言模型(LLMs)在多种任务中表现出色,但在关系提取和事件提取等看似简单的任务中却存在性能差异。这主要源于现有评估方法的不足,包括评估指标的精确性不足和评估基准的局限性。为此,本文提出了一种新的评估方法SQC-Score,利用经过主观问题纠正数据微调的LLMs来改善模型输出与真实标签之间的匹配,并通过引入自然语言推理模型来丰富黄金标签,从而解决基准的不完整性。实验结果表明,SQC-Score在三项信息提取任务中更受人类标注者的青睐。

🔬 方法详解

问题定义:本文旨在解决信息提取任务中现有评估方法的不足,特别是评估指标的精确性和基准的完整性问题。现有方法无法有效衡量模型输出与真实标签之间的语义一致性,导致LLMs在简单任务中的性能被低估。

核心思路:SQC-Score的核心思想是利用经过主观问题纠正数据微调的LLMs,提升模型输出与黄金标签的匹配度。同时,通过引入自然语言推理模型,丰富黄金标签,弥补评估基准的不足。

技术框架:SQC-Score的整体架构包括两个主要模块:首先是基于主观问题纠正的LLMs微调模块,其次是自然语言推理模型,用于生成更全面的黄金标签。整个流程从数据准备、模型训练到评估指标计算,形成闭环。

关键创新:SQC-Score的创新之处在于结合了主观问题纠正和自然语言推理,显著提高了评估的准确性和全面性。这与传统方法的单一评估指标形成鲜明对比,提供了更为丰富的评估视角。

关键设计:在关键设计上,SQC-Score采用了特定的损失函数来优化模型输出与黄金标签的匹配度,并在网络结构上进行了微调,以适应主观问题纠正的数据特性。

📊 实验亮点

实验结果表明,SQC-Score在三项信息提取任务中相较于传统评估指标,获得了人类标注者的更高认可,显示出其在评估准确性和全面性上的显著提升,具体性能数据未详细披露。

🎯 应用场景

该研究的潜在应用领域包括信息提取、自然语言处理和机器学习评估等。通过提供更准确的评估方法,SQC-Score能够帮助研究人员更好地理解和提升LLMs在信息提取任务中的表现,推动相关技术的发展与应用。

📄 摘要(原文)

Modern Large Language Models (LLMs) have showcased remarkable prowess in various tasks necessitating sophisticated cognitive behaviors. Nevertheless, a paradoxical performance discrepancy is observed, where these models underperform in seemingly elementary tasks like relation extraction and event extraction due to two issues in conventional evaluation. (1) The imprecision of existing evaluation metrics that struggle to effectively gauge semantic consistency between model outputs and ground truth, and (2) The inherent incompleteness of evaluation benchmarks, primarily due to restrictive human annotation schemas, resulting in underestimated LLM performances. Inspired by the principles in subjective question correction, we propose a new evaluation method, SQC-Score. This method innovatively utilizes LLMs, fine-tuned through subjective question correction data, to refine matching between model outputs and golden labels. Additionally, by incorporating a Natural Language Inference (NLI) model, SQC-Score enriches golden labels, addressing benchmark incompleteness by acknowledging correct yet previously omitted answers. Results on three information extraction tasks show that SQC-Score is more preferred by human annotators than the baseline metrics. Utilizing SQC-Score, we conduct a comprehensive evaluation of the state-of-the-art LLMs and provide insights for future research for information extraction. Dataset and associated codes can be accessed at https://github.com/THU-KEG/SQC-Score.