A method for improving multilingual quality and diversity of instruction fine-tuning datasets

📄 arXiv: 2509.15549v1 📥 PDF

作者: Chunguang Zhao, Yilun Liu, Pufan Zeng, Yuanchang Luo, Shimin Tao, Minggui He, Weibin Meng, Song Xu, Ziang Chen, Chen Liu, Hongxia Ma, Li Zhang, Boxing Chen, Daimeng Wei

分类: cs.CL

发布日期: 2025-09-19


💡 一句话要点

提出M-DaQ方法,提升多语言指令微调数据集的质量和多样性,增强LLM的多语言能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言学习 指令微调 数据选择 数据质量 数据多样性 大型语言模型 跨语言泛化

📋 核心要点

  1. 现有方法在多语言环境下数据选择效果不佳,依赖于简单的启发式规则或特定语言的假设。
  2. M-DaQ方法通过选择高质量和语义多样的多语言IFT样本,提升LLM的多语言能力。
  3. 实验结果表明,使用M-DaQ微调的模型在18种语言上显著优于基线,胜率超过60%。

📝 摘要(中文)

多语言指令微调(IFT)对于使大型语言模型(LLM)能够有效地泛化到不同的语言和文化背景至关重要。然而,高质量多语言训练数据的稀缺以及相应的构建方法仍然是一个关键瓶颈。虽然数据选择在英语环境中显示出前景,但由于依赖于简单的启发式方法或特定于语言的假设,现有方法通常无法跨语言推广。在这项工作中,我们介绍了一种新颖的多语言数据质量和多样性(M-DaQ)方法,通过选择高质量和语义多样的多语言IFT样本来提高LLM的多语言能力。我们进一步对多语言环境下的表面对齐假设(SAH)进行了首次系统研究。在18种语言上的经验结果表明,使用M-DaQ方法微调的模型比原始基线模型取得了显著的性能提升,胜率超过60%。人工评估进一步验证了这些收益,突出了响应中文化点的增加。我们发布了M-DaQ代码,以支持未来的研究。

🔬 方法详解

问题定义:当前多语言指令微调面临高质量训练数据稀缺的挑战,现有数据选择方法在跨语言泛化能力上存在不足,主要原因是它们依赖于简单的启发式规则或特定于语言的假设,无法有效选择高质量和多样性的多语言数据。

核心思路:M-DaQ的核心思路是通过选择高质量和语义多样的多语言指令微调样本来提升LLM的多语言能力。该方法旨在克服现有方法在跨语言泛化方面的局限性,从而提高模型在不同语言和文化背景下的表现。

技术框架:M-DaQ方法主要包含以下几个阶段:1. 数据收集与预处理:收集多语言指令微调数据集,并进行必要的清洗和预处理。2. 质量评估:使用指标评估每个样本的质量,例如困惑度、流畅度等。3. 多样性评估:评估样本之间的语义多样性,例如使用聚类算法或计算语义相似度。4. 数据选择:根据质量和多样性评估结果,选择高质量且语义多样的样本子集。5. 模型微调:使用选择的样本子集对LLM进行微调。

关键创新:M-DaQ的关键创新在于其综合考虑了多语言数据的质量和多样性,并设计了相应的评估指标和选择策略。此外,该研究还首次在多语言环境下对表面对齐假设(SAH)进行了系统研究,为理解多语言学习的机制提供了新的视角。

关键设计:M-DaQ的具体实现细节包括:1. 质量评估指标的选择:可以采用困惑度、流畅度、信息量等指标,并根据具体任务进行调整。2. 多样性评估方法:可以使用聚类算法(如K-means)将样本划分为不同的簇,并选择代表性的样本。也可以计算样本之间的语义相似度,并选择相似度较低的样本。3. 数据选择策略:可以采用基于阈值的方法,选择质量和多样性指标均高于阈值的样本。也可以采用优化算法,最大化选择样本的质量和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用M-DaQ方法微调的模型在18种语言上取得了显著的性能提升,胜率超过60%。人工评估进一步验证了这些收益,突出了响应中文化点的增加。这些结果表明M-DaQ方法能够有效提升LLM的多语言能力。

🎯 应用场景

该研究成果可应用于提升多语言大型语言模型在机器翻译、跨语言信息检索、多语言对话系统等领域的性能。通过提高模型对不同语言和文化的理解能力,可以促进全球范围内的信息交流和文化传播,具有重要的社会价值和商业潜力。

📄 摘要(原文)

Multilingual Instruction Fine-Tuning (IFT) is essential for enabling large language models (LLMs) to generalize effectively across diverse linguistic and cultural contexts. However, the scarcity of high-quality multilingual training data and corresponding building method remains a critical bottleneck. While data selection has shown promise in English settings, existing methods often fail to generalize across languages due to reliance on simplistic heuristics or language-specific assumptions. In this work, we introduce Multilingual Data Quality and Diversity (M-DaQ), a novel method for improving LLMs multilinguality, by selecting high-quality and semantically diverse multilingual IFT samples. We further conduct the first systematic investigation of the Superficial Alignment Hypothesis (SAH) in multilingual setting. Empirical results across 18 languages demonstrate that models fine-tuned with M-DaQ method achieve significant performance gains over vanilla baselines over 60% win rate. Human evaluations further validate these gains, highlighting the increment of cultural points in the response. We release the M-DaQ code to support future research.