Multilingual Pretraining and Instruction Tuning Improve Cross-Lingual Knowledge Alignment, But Only Shallowly
作者: Changjiang Gao, Hongda Hu, Peng Hu, Jiajun Chen, Jixing Li, Shujian Huang
分类: cs.CL
发布日期: 2024-04-06
💡 一句话要点
提出CLiKA框架以评估跨语言知识对齐问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨语言知识对齐 多语言预训练 指令调优 大语言模型 CLiKA框架
📋 核心要点
- 当前大型语言模型在不同语言间的知识对齐能力存在显著不平衡,尤其在非英语语言中表现较差。
- 本文提出CLiKA框架,系统评估大语言模型的跨语言知识对齐,探索多语言预训练和指令调优的影响。
- 实验结果显示,继续预训练虽然提升目标语言对齐度,但会影响其他语言,而混合预训练的影响较小。
📝 摘要(中文)
尽管当前的大型语言模型在英语知识检索方面表现强劲,但在不同语言之间的能力存在不平衡。为了解决这一问题,本文提出了多语言预训练和多语言指令调优两种方法。然而,这些方法对模型内部跨语言知识对齐的贡献尚不明确。我们提出了CLiKA框架,从性能、一致性和导电性三个层面评估大语言模型的跨语言知识对齐程度。结果表明,尽管多语言预训练和指令调优对跨语言知识对齐有益,但训练策略需谨慎设计,继续预训练会提升目标语言的对齐度,但会牺牲其他语言的表现,而混合预训练对其他语言的影响较小。总体来看,所有测试的大语言模型在跨语言知识导电性方面的表现均不理想,且多语言预训练和指令调优无法显著改善这一问题。
🔬 方法详解
问题定义:本文旨在解决当前大型语言模型在不同语言间知识对齐能力不平衡的问题,现有方法在多语言环境下的表现不足,尤其是在非英语语言的知识检索能力较弱。
核心思路:提出CLiKA框架,通过系统评估跨语言知识对齐的性能、一致性和导电性,探索多语言预训练和指令调优对知识对齐的影响,强调训练策略的设计。
技术框架:CLiKA框架包括三个主要模块:性能评估模块、一致性评估模块和导电性评估模块,分别用于评估模型在不同语言间的知识对齐能力。
关键创新:最重要的创新在于系统性地评估跨语言知识对齐的三个层面,并揭示了不同训练策略对对齐效果的影响,尤其是继续预训练与混合预训练的对比。
关键设计:在实验中,采用了特定的损失函数和网络结构,设计了多语言预训练和指令调优的不同策略,以便更好地评估其对知识对齐的影响。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,多语言预训练和指令调优对跨语言知识对齐有积极影响,但整体导电性仍不理想。具体而言,继续预训练在目标语言上提升了对齐度,但对其他语言的影响较大,而混合预训练则对其他语言的影响较小,显示出不同策略的效果差异。
🎯 应用场景
该研究的潜在应用领域包括多语言自然语言处理、跨语言信息检索和多语言对话系统等。通过改进跨语言知识对齐能力,能够提升非英语用户的使用体验,促进全球化信息的获取与交流,具有重要的实际价值和未来影响。
📄 摘要(原文)
Despite their strong ability to retrieve knowledge in English, current large language models show imbalance abilities in different languages. Two approaches are proposed to address this, i.e., multilingual pretraining and multilingual instruction tuning. However, whether and how do such methods contribute to the cross-lingual knowledge alignment inside the models is unknown. In this paper, we propose CLiKA, a systematic framework to assess the cross-lingual knowledge alignment of LLMs in the Performance, Consistency and Conductivity levels, and explored the effect of multilingual pretraining and instruction tuning on the degree of alignment. Results show that: while both multilingual pretraining and instruction tuning are beneficial for cross-lingual knowledge alignment, the training strategy needs to be carefully designed. Namely, continued pretraining improves the alignment of the target language at the cost of other languages, while mixed pretraining affect other languages less. Also, the overall cross-lingual knowledge alignment, especially in the conductivity level, is unsatisfactory for all tested LLMs, and neither multilingual pretraining nor instruction tuning can substantially improve the cross-lingual knowledge conductivity.