Mining Large Language Models for Low-Resource Language Data: Comparing Elicitation Strategies for Hausa and Fongbe
作者: Mahounan Pericles Adjovi, Roald Eiselen, Prasenjit Mitra
分类: cs.CL, cs.AI
发布日期: 2026-04-14
备注: 11 pages, 5 figures, 6 tables; to appear in LREC-COLING 2026
💡 一句话要点
利用提示工程从大语言模型中挖掘低资源语言数据
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低资源语言 大语言模型 提示工程 数据挖掘 豪萨语 丰贝语 语料库构建
📋 核心要点
- 低资源语言数据匮乏,而大型语言模型蕴含丰富的语言知识,但访问受限。
- 通过设计不同的提示策略,从商业大语言模型中提取豪萨语和丰贝语的可用文本数据。
- 实验表明,GPT-4o Mini在数据提取效率上优于Gemini,且最佳提示策略因语言而异。
📝 摘要(中文)
大型语言模型(LLM)在低资源语言社区贡献的数据上进行训练,但这些模型中编码的语言知识只能通过商业API访问。本文研究了是否可以通过策略性提示,从LLM中提取可用的文本数据,用于两种西非语言:豪萨语(亚非语系,约8000万使用者)和丰贝语(尼日尔-刚果语系,约200万使用者)。我们系统地比较了两种商业LLM(GPT-4o Mini和Gemini 2.5 Flash)的六种引出任务类型。GPT-4o Mini每次API调用提取的可用目标语言单词是Gemini的6-41倍。最佳策略因语言而异:豪萨语受益于功能性文本和对话,而丰贝语需要受约束的生成提示。我们发布了所有生成的语料库和代码。
🔬 方法详解
问题定义:论文旨在解决低资源语言数据获取困难的问题。现有方法依赖人工标注或爬取,成本高昂且效率低下。商业大语言模型虽然包含了大量低资源语言知识,但直接访问这些知识受到API限制,难以直接用于构建数据集。
核心思路:论文的核心思路是通过精心设计的提示(Prompt Engineering),诱导大语言模型生成目标语言的文本数据。通过比较不同类型的提示策略,找到最适合特定低资源语言的数据生成方法,从而高效地构建高质量的语料库。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择两种西非低资源语言(豪萨语和丰贝语);2) 选择两种商业大语言模型(GPT-4o Mini和Gemini 2.5 Flash);3) 设计六种不同的提示任务类型,包括功能性文本生成、对话生成、受约束生成等;4) 使用不同的提示策略,从大语言模型中生成文本数据;5) 评估生成数据的质量和数量,比较不同提示策略和模型的性能;6) 分析最佳提示策略与语言特性的关系。
关键创新:该研究的关键创新在于系统性地比较了多种提示策略在低资源语言数据生成中的效果,并发现最佳策略因语言而异。这为利用大语言模型构建低资源语言语料库提供了新的思路和方法。此外,该研究还开源了生成的语料库和代码,为后续研究提供了便利。
关键设计:六种提示任务类型的设计是关键。功能性文本生成旨在生成实用性文本,如新闻报道、产品描述等。对话生成旨在模拟人与人之间的对话,生成更自然的语言。受约束生成旨在通过限制生成内容的主题、风格或词汇,提高生成数据的质量。具体的提示词设计和参数设置(如temperature、top_p等)对生成结果有重要影响,但论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o Mini在数据提取效率上显著优于Gemini 2.5 Flash,每次API调用提取的可用目标语言单词是Gemini的6-41倍。此外,最佳提示策略因语言而异:豪萨语受益于功能性文本和对话,而丰贝语需要受约束的生成提示。这些发现为低资源语言数据生成提供了重要的指导。
🎯 应用场景
该研究成果可应用于低资源语言的机器翻译、语音识别、文本生成等任务。通过低成本地构建高质量的语料库,可以提升低资源语言相关AI应用的效果,促进语言保护和文化传承。未来,该方法可以推广到更多低资源语言,并结合领域知识进行定制化数据生成。
📄 摘要(原文)
Large language models (LLMs) are trained on data contributed by low-resource language communities, yet the linguistic knowledge encoded in these models remains accessible only through commercial APIs. This paper investigates whether strategic prompting can extract usable text data from LLMs for two West African languages: Hausa (Afroasiatic, approximately 80 million speakers) and Fongbe (Niger-Congo, approximately 2 million speakers). We systematically compare six elicitation task types across two commercial LLMs (GPT-4o Mini and Gemini 2.5 Flash). GPT-4o Mini extracts 6-41 times more usable target-language words per API call than Gemini. Optimal strategies differ by language: Hausa benefits from functional text and dialogue, while Fongbe requires constrained generation prompts. We release all generated corpora and code.