Jellyfish: A Large Language Model for Data Preprocessing

作者: Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada

分类: cs.AI, cs.CL, cs.DB, cs.LG

发布日期: 2023-12-04 (更新: 2024-10-28)

备注: Accepted by EMNLP 2024, a.k.a. "Jellyfish: Instruction-Tuning Local Large Language Models for Data Preprocessing''

🔗 代码/项目: HUGGINGFACE | HUGGINGFACE

💡 一句话要点

Jellyfish：一种用于数据预处理的本地化大型语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数据预处理 大型语言模型 指令调优 本地部署 数据安全

📋 核心要点

现有数据预处理方法依赖GPT API，存在数据泄露风险，且定制性不足。
论文提出Jellyfish，通过指令调优本地LLM，实现安全、可定制的通用数据预处理。
Jellyfish在多个数据预处理任务上表现出竞争力，并保持了基础模型的NLP能力。

📝 摘要（中文）

本文探讨了利用大型语言模型（LLM）进行数据预处理（DP）的可能性，数据预处理是将原始数据转换为易于处理的干净格式的关键步骤。尽管LLM的使用激发了人们设计通用DP解决方案的兴趣，但近期的相关工作通常依赖于GPT API，这不可避免地引发了数据泄露的担忧。与这些方法不同，我们考虑使用指令调优本地LLM（7-13B模型）作为通用DP任务求解器，这些模型可以在本地、单GPU且低成本的GPU上运行，从而确保数据安全并支持进一步的定制。我们选择了涵盖四个代表性DP任务的数据集，并使用针对DP量身定制的数据配置、知识注入和推理数据蒸馏技术构建指令调优数据。通过调优Mistral-7B、Llama 3-8B和OpenOrca-Platypus2-13B，我们的模型Jellyfish-7B/8B/13B在与GPT-3.5/4模型相比具有竞争力，并且对未见任务具有很强的泛化能力，同时几乎不影响基础模型在NLP任务中的能力。同时，与GPT-3.5相比，Jellyfish提供了增强的推理能力。我们的模型可在https://huggingface.co/NECOUDBFM/Jellyfish 获取。我们的指令数据集可在https://huggingface.co/datasets/NECOUDBFM/Jellyfish-Instruct 获取。

🔬 方法详解

问题定义：论文旨在解决数据预处理过程中使用外部API（如GPT）带来的数据安全问题，以及现有方法定制性不足的缺点。现有方法依赖外部API，数据需要上传到第三方服务器，存在数据泄露的风险。此外，这些API通常是黑盒，用户难以根据特定需求进行定制和优化。

核心思路：论文的核心思路是利用指令调优技术，在本地部署和运行的大型语言模型（LLM）上实现数据预处理功能。通过构建专门的数据预处理指令数据集，对LLM进行微调，使其能够理解和执行各种数据预处理任务。这样既保证了数据安全，又提供了高度的定制性。

技术框架：Jellyfish的技术框架主要包括以下几个阶段：1) 数据收集：收集涵盖各种数据预处理任务的数据集。2) 指令构建：利用数据配置、知识注入和推理数据蒸馏等技术，为每个数据样本构建相应的指令。3) 模型训练：使用构建好的指令数据集对本地LLM（如Mistral-7B、Llama 3-8B等）进行指令调优。4) 模型评估：在各种数据预处理任务上评估模型的性能，并与现有方法进行比较。

关键创新：论文的关键创新在于提出了一种基于本地LLM的通用数据预处理解决方案，该方案既保证了数据安全，又提供了高度的定制性。此外，论文还提出了一系列针对数据预处理任务的指令构建技术，包括数据配置、知识注入和推理数据蒸馏。

关键设计：论文的关键设计包括：1) 指令数据集的构建：论文设计了一套针对数据预处理任务的指令构建方法，包括数据配置（将数据转换为LLM可以理解的格式）、知识注入（向LLM提供数据预处理相关的知识）和推理数据蒸馏（利用大型模型生成高质量的推理数据）。2) 模型选择：论文选择了Mistral-7B、Llama 3-8B和OpenOrca-Platypus2-13B等开源LLM作为基础模型，这些模型具有较强的性能和可定制性。3) 评估指标：论文使用了一系列数据预处理相关的评估指标，如准确率、召回率等，来评估模型的性能。

📊 实验亮点

Jellyfish-7B/8B/13B在数据预处理任务上与GPT-3.5/4模型相比具有竞争力，同时保持了基础模型的NLP能力。实验结果表明，Jellyfish在未见任务上具有很强的泛化能力，并且在某些任务上甚至优于GPT-3.5。此外，Jellyfish还展现出增强的推理能力。

🎯 应用场景

Jellyfish可应用于各种需要数据预处理的领域，如金融、医疗、电商等。它可以在本地安全地进行数据清洗、转换、集成等操作，降低数据泄露风险。同时，Jellyfish的可定制性使其能够适应不同领域和任务的特定需求，提高数据预处理的效率和质量。未来，Jellyfish有望成为企业和研究机构进行数据预处理的重要工具。

📄 摘要（原文）

This paper explores the utilization of LLMs for data preprocessing (DP), a crucial step in the data mining pipeline that transforms raw data into a clean format conducive to easy processing. Whereas the use of LLMs has sparked interest in devising universal solutions to DP, recent initiatives in this domain typically rely on GPT APIs, raising inevitable data breach concerns. Unlike these approaches, we consider instruction-tuning local LLMs (7 -- 13B models) as universal DP task solvers that operate on a local, single, and low-priced GPU, ensuring data security and enabling further customization. We select a collection of datasets across four representative DP tasks and construct instruction tuning data using data configuration, knowledge injection, and reasoning data distillation techniques tailored to DP. By tuning Mistral-7B, Llama 3-8B, and OpenOrca-Platypus2-13B, our models, namely, Jellyfish-7B/8B/13B, deliver competitiveness compared to GPT-3.5/4 models and strong generalizability to unseen tasks while barely compromising the base models' abilities in NLP tasks. Meanwhile, Jellyfish offers enhanced reasoning capabilities compared to GPT-3.5. Our models are available at: https://huggingface.co/NECOUDBFM/Jellyfish . Our instruction dataset is available at: https://huggingface.co/datasets/NECOUDBFM/Jellyfish-Instruct .

Jellyfish: A Large Language Model for Data Preprocessing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册