Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs

📄 arXiv: 2409.16341v2 📥 PDF

作者: Shadi Iskander, Nachshon Cohen, Zohar Karnin, Ori Shapira, Sofia Tolmach

分类: cs.LG, cs.CL, cs.SE

发布日期: 2024-09-24 (更新: 2024-09-26)


💡 一句话要点

提出两种数据质量评估方法,提升工具型LLM的合成数据训练效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具型LLM 合成数据 数据质量评估 人工智能 自然语言处理

📋 核心要点

  1. 现有工具型LLM训练依赖合成数据,但缺乏系统的数据质量评估,影响模型性能。
  2. 提出两种数据质量评估方法:基于人工规则和基于模型评估,以提高数据可靠性。
  3. 实验表明,使用高质量数据训练的模型性能优于使用未验证数据训练的模型,即使数据量更少。

📝 摘要(中文)

用于外部工具使用的大型语言模型(LLM)训练是一个快速发展的领域,最近的研究主要集中在生成合成数据以解决可用数据短缺的问题。然而,缺乏系统的数据质量检查给模型的正确训练和测试带来了复杂性。为此,我们提出了两种评估数据可靠性的方法,用于训练LLM使用外部工具。第一种方法使用直观的、人为定义的正确性标准。第二种方法使用基于模型的上下文评估。我们对两个流行的基准进行了彻底的数据质量评估,然后进行了外在评估,展示了数据质量对模型性能的影响。我们的结果表明,用高质量数据训练的模型优于用未经验证的数据训练的模型,即使训练数据量较小。这些发现从经验上支持了评估和确保工具型LLM训练数据可靠性的重要性。

🔬 方法详解

问题定义:论文旨在解决工具型LLM训练中合成数据质量不可靠的问题。现有方法缺乏有效的数据质量评估手段,导致模型训练效果受限,甚至可能引入噪声,降低模型性能。因此,如何评估和筛选高质量的合成数据成为关键挑战。

核心思路:论文的核心思路是通过两种互补的方法来评估合成数据的质量。一种方法是基于人工定义的规则,直接判断数据的正确性;另一种方法是利用LLM本身进行上下文评估,判断数据是否符合逻辑和常识。通过这两种方法的结合,可以更全面地评估数据的质量。

技术框架:论文提出了两种数据质量评估方法。第一种方法是基于人工定义的正确性标准,例如,对于一个需要进行计算的工具调用,可以检查生成的结果是否与正确答案一致。第二种方法是使用一个预训练的LLM进行上下文评估,例如,给定一个任务描述和一个工具调用序列,LLM判断该序列是否合理。然后,使用评估后的数据训练工具型LLM,并进行外在评估,验证数据质量对模型性能的影响。

关键创新:论文的关键创新在于提出了两种不同的数据质量评估方法,并将其应用于工具型LLM的合成数据训练。与以往研究不同,该论文不仅关注数据的数量,更关注数据的质量,并证明了高质量数据的重要性。此外,使用LLM进行上下文评估也是一个新颖的想法,可以有效地捕捉数据中的潜在错误。

关键设计:在基于人工规则的评估中,需要根据具体的任务和工具定义合适的规则。在基于模型的评估中,需要选择合适的LLM,并设计合适的prompt,以引导LLM进行正确的评估。论文中没有详细说明具体的参数设置、损失函数或网络结构,因为重点在于数据质量评估方法本身,而不是模型架构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用高质量数据训练的模型在两个流行的基准测试中均优于使用未验证数据训练的模型。具体来说,即使使用较少的高质量数据,也能达到甚至超过使用大量未验证数据的模型性能。这充分证明了数据质量对工具型LLM训练的重要性。

🎯 应用场景

该研究成果可应用于各种需要使用外部工具的LLM训练场景,例如智能助手、自动化客服、科学计算等。通过提高训练数据的质量,可以显著提升模型的性能和可靠性,降低人工干预成本,并促进工具型LLM的广泛应用。

📄 摘要(原文)

Training large language models (LLMs) for external tool usage is a rapidly expanding field, with recent research focusing on generating synthetic data to address the shortage of available data. However, the absence of systematic data quality checks poses complications for properly training and testing models. To that end, we propose two approaches for assessing the reliability of data for training LLMs to use external tools. The first approach uses intuitive, human-defined correctness criteria. The second approach uses a model-driven assessment with in-context evaluation. We conduct a thorough evaluation of data quality on two popular benchmarks, followed by an extrinsic evaluation that showcases the impact of data quality on model performance. Our results demonstrate that models trained on high-quality data outperform those trained on unvalidated data, even when trained with a smaller quantity of data. These findings empirically support the significance of assessing and ensuring the reliability of training data for tool-using LLMs.