Diverse and Fine-Grained Instruction-Following Ability Exploration with Synthetic Data

📄 arXiv: 2407.03942v1 📥 PDF

作者: Zihui Gu, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Cheng-Zhong Xu, Ju Fan

分类: cs.AI, cs.CL, cs.HC

发布日期: 2024-07-04

期刊: AAAI 2024


💡 一句话要点

提出DINGO:一个用于评估LLM指令遵循能力的多样化和细粒度数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 指令遵循 数据集 评估方法 细粒度 多样性 GPT-4 人工标注

📋 核心要点

  1. 现有LLM指令遵循评估缺乏细粒度任务评估,且依赖单一指令表达,难以全面评估模型能力。
  2. DINGO数据集基于细粒度类别树构建,包含GPT-4和人工生成的多样化指令,提供更全面的评估。
  3. 实验表明DINGO能为LLM提供更具挑战性的评估,并提供任务级别的改进方向,助力LLM优化。

📝 摘要(中文)

指令遵循能力对于大型语言模型(LLMs)支持多样化的用户请求至关重要。虽然现有工作在使LLMs与人类偏好对齐方面取得进展,但由于现实世界用户指令的复杂性和多样性,评估其指令遵循能力仍然是一个挑战。现有的评估方法侧重于通用技能,但存在两个主要缺点:缺乏细粒度的任务级评估和依赖于单一的指令表达。为了解决这些问题,本文提出了DINGO,一个细粒度和多样化的指令遵循评估数据集,它具有两个主要优点:(1)DINGO基于手动标注的、细粒度和多层次的类别树,该类别树具有从真实世界用户请求中派生的130个节点;(2)DINGO包含由GPT-4和人类专家生成的多样化指令。通过广泛的实验,我们证明DINGO不仅可以为LLMs提供更具挑战性和更全面的评估,还可以提供任务级的细粒度指导,以进一步改进LLMs。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)的指令遵循能力评估方法存在两个主要问题。首先,它们缺乏细粒度的任务级别评估,难以深入了解模型在特定任务上的表现。其次,它们通常依赖于单一的指令表达方式,无法充分测试模型对指令多样性的适应能力。这些局限性使得现有评估方法难以全面、准确地衡量LLMs的指令遵循能力。

核心思路:本文的核心思路是构建一个细粒度、多样化的指令遵循评估数据集,即DINGO。通过引入细粒度的任务分类体系和多样化的指令表达方式,DINGO旨在提供更具挑战性和更全面的评估,从而更好地了解LLMs在不同任务上的指令遵循能力。这种设计能够帮助研究人员识别LLMs的优势和不足,并为进一步改进模型提供指导。

技术框架:DINGO数据集的构建主要包含两个关键步骤。首先,构建一个细粒度和多层次的类别树,该类别树具有从真实世界用户请求中派生的130个节点。这个类别树定义了DINGO数据集的任务空间。其次,基于这个类别树,生成多样化的指令。这些指令由GPT-4和人类专家共同生成,以确保指令的多样性和质量。

关键创新:DINGO数据集的关键创新在于其细粒度的任务分类体系和多样化的指令表达方式。与现有评估方法相比,DINGO能够提供更细致的任务级别评估,并能够更好地测试模型对指令多样性的适应能力。此外,DINGO数据集的构建过程结合了GPT-4和人类专家的力量,从而保证了指令的质量和多样性。

关键设计:DINGO数据集的关键设计包括以下几个方面。首先,类别树的构建采用了手动标注的方式,以确保类别定义的准确性和合理性。其次,指令的生成采用了GPT-4和人类专家相结合的方式,以确保指令的多样性和质量。具体来说,GPT-4负责生成大量的指令,而人类专家则负责对这些指令进行审核和修改,以确保其符合人类的语言习惯和逻辑。此外,DINGO数据集还包含了不同难度的指令,以满足不同层次的评估需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DINGO数据集通过实验验证,能够为LLMs提供更具挑战性和更全面的评估。实验结果表明,使用DINGO数据集可以更有效地识别LLMs在特定任务上的不足,并为模型改进提供任务级别的细粒度指导。与现有评估方法相比,DINGO数据集能够更准确地反映LLMs的真实能力。

🎯 应用场景

该研究成果可广泛应用于大型语言模型的评估和改进。DINGO数据集能够帮助研究人员更全面地了解LLMs的指令遵循能力,并为模型优化提供细粒度的指导。此外,该数据集还可以用于开发更智能、更可靠的LLM应用,例如智能助手、聊天机器人等。

📄 摘要(原文)

Instruction-following is particularly crucial for large language models (LLMs) to support diverse user requests. While existing work has made progress in aligning LLMs with human preferences, evaluating their capabilities on instruction following remains a challenge due to complexity and diversity of real-world user instructions. While existing evaluation methods focus on general skills, they suffer from two main shortcomings, i.e., lack of fine-grained task-level evaluation and reliance on singular instruction expression. To address these problems, this paper introduces DINGO, a fine-grained and diverse instruction-following evaluation dataset that has two main advantages: (1) DINGO is based on a manual annotated, fine-grained and multi-level category tree with 130 nodes derived from real-world user requests; (2) DINGO includes diverse instructions, generated by both GPT-4 and human experts. Through extensive experiments, we demonstrate that DINGO can not only provide more challenging and comprehensive evaluation for LLMs, but also provide task-level fine-grained directions to further improve LLMs.