UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

作者: Bethel Melesse Tessema, Akhil Kedia, Tae-Sun Chung

分类: cs.CL, cs.AI

发布日期: 2024-11-21

🔗 代码/项目: GITHUB

💡 一句话要点

UnifiedCrawl：利用聚合Common Crawl数据低成本适配低资源语言LLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 低资源语言 大型语言模型 Common Crawl 数据挖掘 参数高效微调 QLoRA 语言建模

📋 核心要点

大型语言模型在低资源语言上表现欠佳，主要原因是缺乏充足的训练数据，限制了模型的泛化能力。
UnifiedCrawl通过高效地从Common Crawl中提取低资源语言数据，构建大规模单语数据集，为LLM微调提供充足的训练资源。
实验结果表明，使用UnifiedCrawl构建的数据集，通过QLoRA微调多语言LLM，显著提升了低资源语言的建模性能和少样本学习能力。

📝 摘要（中文）

大型语言模型(LLMs)在低资源语言上的表现不佳，这是由于训练数据有限。本文提出了一种有效的方法，从整个Common Crawl语料库中为低资源语言收集文本数据。我们的方法UnifiedCrawl，使用最少的计算资源过滤和提取Common Crawl数据，产生比以前可用的来源更大的单语数据集。我们证明，利用这些数据通过高效的适配器方法(QLoRA)微调多语言LLM，可以显著提高低资源语言的性能，同时最大限度地减少VRAM的使用。实验表明，语言建模困惑度大幅降低，并且少量样本提示分数有所提高。我们的工作和发布的源代码提供了一种经济实惠的方法，可以使用消费级硬件改进低资源语言的LLM。

🔬 方法详解

问题定义：论文旨在解决大型语言模型(LLMs)在低资源语言上表现不佳的问题。现有方法通常受限于低资源语言数据的稀缺性，导致模型训练不足，泛化能力差。Common Crawl虽然包含大量数据，但从中提取特定低资源语言的数据计算成本高昂，效率低下。

核心思路：论文的核心思路是设计一种高效的Common Crawl数据提取方法，即UnifiedCrawl，以低计算成本获取大规模的低资源语言单语数据集。通过利用这些数据，并结合参数高效微调技术（如QLoRA），提升LLM在低资源语言上的性能。

技术框架：UnifiedCrawl的整体流程包括以下几个阶段：1) Common Crawl数据下载；2) 语言识别与过滤，使用语言识别工具过滤出目标低资源语言的网页；3) 文本提取与清洗，从网页中提取文本内容，并进行清洗和去重；4) 数据集构建，将提取的文本数据整理成可用于LLM训练的格式。然后，使用构建的数据集，通过QLoRA等参数高效微调方法，对多语言LLM进行微调。

关键创新：UnifiedCrawl的关键创新在于其高效的数据提取方法，能够在有限的计算资源下，从Common Crawl中提取出大规模的低资源语言数据。与传统方法相比，UnifiedCrawl降低了数据获取的成本，使得利用LLM解决低资源语言问题成为可能。

关键设计：论文中可能涉及的关键设计包括：1) 语言识别工具的选择与优化，以提高语言识别的准确率和效率；2) 文本提取规则的设计，以最大程度地提取有效文本内容；3) 数据清洗策略，以去除噪声和重复数据；4) QLoRA等参数高效微调方法的具体配置，例如adapter的层数、维度等。

🖼️ 关键图片

📊 实验亮点

论文实验结果表明，使用UnifiedCrawl构建的数据集，通过QLoRA微调多语言LLM，显著降低了语言建模的困惑度，并提高了少样本学习的性能。具体提升幅度未知，但摘要中明确指出是“large improvements”，表明效果显著。该方法在降低计算成本的同时，有效提升了LLM在低资源语言上的表现。

🎯 应用场景

该研究成果可广泛应用于低资源语言的自然语言处理任务，例如机器翻译、文本摘要、情感分析等。通过提升LLM在低资源语言上的性能，可以促进这些语言的信息获取和交流，推动文化多样性和语言保护。此外，该方法也为其他资源受限场景下的LLM应用提供了借鉴。

📄 摘要（原文）

Large language models (LLMs) under-perform on low-resource languages due to limited training data. We present a method to efficiently collect text data for low-resource languages from the entire Common Crawl corpus. Our approach, UnifiedCrawl, filters and extracts common crawl using minimal compute resources, yielding mono-lingual datasets much larger than previously available sources. We demonstrate that leveraging this data to fine-tuning multilingual LLMs via efficient adapter methods (QLoRA) significantly boosts performance on the low-resource language, while minimizing VRAM usage. Our experiments show large improvements in language modeling perplexity and an increase in few-shot prompting scores. Our work and released source code provide an affordable approach to improve LLMs for low-resource languages using consumer hardware. Our source code is available here at https://github.com/bethelmelesse/unifiedcrawl.

UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理