AmharicIR+Instr: A Two-Dataset Resource for Neural Retrieval and Instruction Tuning
作者: Tilahun Yeshambel, Moncef Garouani, Josiane Mothe
分类: cs.CL, cs.IR
发布日期: 2026-02-10
备注: 7 pages, Submitted to resource track
💡 一句话要点
发布AmharicIR+Instr数据集,促进阿姆哈拉语神经检索和指令调优研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿姆哈拉语 低资源语言 神经检索 指令调优 数据集 数据构建 对比学习
📋 核心要点
- 低资源语言缺乏高质量监督数据,限制了神经检索和生成模型的发展。
- 构建包含检索排序和指令跟随的数据集,采用人工和LLM结合的方式。
- 发布标准格式的数据集,并提供可推广到其他低资源语言的方法论。
📝 摘要(中文)
神经检索和GPT风格的生成模型依赖于大量高质量的监督数据,但对于像阿姆哈拉语这样的低资源语言来说,这种数据仍然稀缺。我们发布了一个阿姆哈拉语数据资源,包含两个数据集,支持(i)神经检索排序和(ii)指令跟随文本生成的研究。检索排序数据集包含1091个手动验证的查询-正例-负例文档三元组,这些三元组来自不同的阿姆哈拉语来源,旨在支持神经检索器的对比训练和基准测试(例如,DPR、ColBERT风格的后期交互和SPLADE风格的稀疏神经检索)。三元组是通过专家策划的查询、网络衍生的查询和LLM辅助生成相结合的方式创建的,正例/负例文档选自网络或由LLM合成,然后由母语人士验证。指令提示-响应数据集包含6285个阿姆哈拉语提示-响应对,涵盖多个领域和指令类型,由多个LLM生成,并通过人工审查和纠正来改进语法、相关性、流畅性和事实合理性。我们发布了这两个数据集,并采用标准化的分割和格式(CSV、JSON、JSONL),以实现阿姆哈拉语检索、排序和生成建模的可重复工作。这些数据集还提供了一种可以推广到其他低资源语言的方法。
🔬 方法详解
问题定义:论文旨在解决阿姆哈拉语等低资源语言缺乏高质量监督数据的问题,这阻碍了神经检索和指令调优等任务的发展。现有方法要么依赖于少量的人工标注数据,要么难以保证LLM生成数据的质量,导致模型性能受限。
核心思路:论文的核心思路是结合人工标注和LLM辅助生成,构建高质量的阿姆哈拉语数据集。通过专家知识和LLM能力互补,既保证了数据的相关性和准确性,又提高了数据生成的效率。
技术框架:论文构建了两个数据集:AmharicIR用于神经检索排序,AmharicInstr用于指令跟随文本生成。AmharicIR数据集构建流程包括:(1)查询生成(专家、网络、LLM);(2)正负例文档选择/生成(网络、LLM);(3)人工验证。AmharicInstr数据集构建流程包括:(1)LLM生成提示-响应对;(2)人工审查和纠正(语法、相关性、流畅性、事实合理性)。
关键创新:论文的关键创新在于结合多种查询生成方式(专家、网络、LLM)和正负例文档来源(网络、LLM),并引入人工验证环节,从而在低资源环境下构建高质量的检索排序数据集。此外,通过人工审查和纠正LLM生成的数据,保证了指令跟随数据集的质量。
关键设计:在AmharicIR数据集中,使用了对比学习的训练方式,需要构造query-positive-negative三元组。正负样本的选择策略至关重要,论文结合了网络检索和LLM生成,并由人工进行筛选,保证了负样本的难度和质量。在AmharicInstr数据集中,人工审查的标准包括语法正确性、相关性、流畅性和事实合理性,确保生成数据的可用性。
🖼️ 关键图片
📊 实验亮点
论文构建了包含1091个检索排序三元组和6285个指令跟随样本的阿姆哈拉语数据集。通过人工验证,保证了数据的质量。该数据集为阿姆哈拉语神经检索和指令调优提供了宝贵的资源,并为其他低资源语言的数据构建提供了借鉴。
🎯 应用场景
该研究成果可应用于阿姆哈拉语信息检索、问答系统、文本生成等领域。高质量数据集的发布将促进阿姆哈拉语自然语言处理技术的发展,并为其他低资源语言提供数据构建的参考方法。未来可用于构建阿姆哈拉语的智能客服、机器翻译等应用。
📄 摘要(原文)
Neural retrieval and GPT-style generative models rely on large, high-quality supervised data, which is still scarce for low-resource languages such as Amharic. We release an Amharic data resource consisting of two datasets that supports research on (i) neural retrieval-ranking and (ii) instruction-following text generation. The retrieval-ranking dataset contains 1,091 manually verified query-positive-negative document triplets drawn from diverse Amharic sources and constructed to support contrastive training and benchmarking of neural retrievers (e.g., DPR, ColBERT-style late interaction and SPLADE-style sparse neural retrieval). Triplets are created through a combination of expert-curated queries, web-derived queries, and LLM-assisted generation, with positive/negative documents selected from the web or synthesized by LLMs and then validated by native speakers. The instruction prompt-response dataset comprises 6,285 Amharic prompt-response pairs spanning multiple domains and instruction types, generated with several LLMs and refined through manual review and correction for grammaticality, relevance, fluency, and factual plausibility. We release both datasets with standardized splits and formats (CSV,JSON,JSONL) to enable reproducible work on Amharic retrieval, ranking, and generative modelling. These datasets also come with a methodology that can be generalized to other low-resource languages.