Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?
作者: Chengzhi Zhong, Fei Cheng, Qianying Liu, Junfeng Jiang, Zhen Wan, Chenhui Chu, Yugo Murawaki, Sadao Kurohashi
分类: cs.CL, cs.AI
发布日期: 2024-08-20
备注: work in progress
💡 一句话要点
揭示多语言LLM内部表征:探究模型在何种语言中“思考”
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 内部表征 潜在语言 语言模型分析 跨语言理解
📋 核心要点
- 现有非英语中心LLM的内部运作机制尚不明确,需要深入理解其语言表征方式。
- 论文提出通过分析中间层表征解嵌入后的概率分布,确定模型的内部潜在语言。
- 实验表明,日语特定模型同时使用日语和英语作为内部潜在语言,并根据目标语言进行选择。
📝 摘要(中文)
本研究旨在探究非以英语为中心的LLM,尽管性能强大,是否以其各自的主导语言进行“思考”。更准确地说,“思考”指的是中间层的表征在解嵌入到词汇空间时,在生成过程中对某些主导语言表现出更高的概率。我们将这些语言称为内部潜在语言。我们研究了三种典型的日语处理模型:Llama2(以英语为中心)、Swallow(以英语为中心,并持续进行日语预训练)和LLM-jp(在平衡的英语和日语语料库上进行预训练)。实验结果表明,与完全依赖英语作为内部潜在语言的Llama2不同,针对日语的Swallow和LLM-jp同时使用日语和英语,表现出双重内部潜在语言。对于任何给定的目标语言,模型优先激活与其最相关的潜在语言。此外,我们还探讨了中间层如何响应涉及潜在内部语言和目标输出语言之间文化冲突的问题。我们进一步探索了在保持中间层表征反映的一致语义意义的同时,语言身份如何在各层之间转移。这项研究加深了对非以英语为中心的大型语言模型的理解,突出了其内部中间层中语言表征的复杂动态。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在处理多语言任务时表现出色,但其内部如何表示和处理不同语言仍然是一个黑盒。特别是,对于非以英语为中心的LLM,它们是否仍然依赖英语作为主要的内部语言,或者已经发展出对其他语言的独立表征,这是一个重要的研究问题。现有方法难以直接观察和量化LLM内部的语言表征。
核心思路:本研究的核心思路是通过分析LLM中间层的表征,观察这些表征在解嵌入到词汇空间后,对不同语言的概率分布。如果模型在生成过程中倾向于激活某种语言的词汇,那么可以认为该语言是模型的内部潜在语言。通过比较不同模型的内部潜在语言,可以了解模型如何处理和融合不同语言的信息。
技术框架:该研究的技术框架主要包括以下几个步骤:1)选择具有代表性的LLM,包括以英语为中心的模型(Llama2)、经过日语持续预训练的模型(Swallow)和在平衡的英日语料库上预训练的模型(LLM-jp)。2)使用这些模型生成文本,并提取中间层的表征。3)将中间层表征解嵌入到词汇空间,计算每个词汇的概率。4)分析不同语言词汇的概率分布,确定模型的内部潜在语言。5)设计实验,探究模型在处理文化冲突和语言转换时的行为。
关键创新:该研究的关键创新在于提出了一种新的方法来分析LLM的内部语言表征,即通过观察中间层表征解嵌入后的概率分布来确定模型的内部潜在语言。此外,该研究还首次揭示了非以英语为中心的LLM可能同时使用多种内部潜在语言,并根据目标语言进行选择。这与以往认为LLM主要依赖英语作为内部语言的观点不同。
关键设计:在实验设计方面,该研究考虑了以下关键因素:1)选择具有代表性的LLM,以覆盖不同的训练策略和语言背景。2)使用多种语言作为输入和输出,以探究模型在不同语言环境下的行为。3)设计涉及文化冲突的问题,以考察模型对不同文化背景的理解。4)分析不同层的表征,以了解语言身份如何在模型内部转移。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Llama2主要依赖英语作为内部潜在语言,而Swallow和LLM-jp则同时使用日语和英语。对于给定的目标语言,模型倾向于激活与其最相关的潜在语言。例如,在生成日语文本时,Swallow和LLM-jp会更多地激活日语的内部表征。此外,研究还发现,在处理涉及文化冲突的问题时,模型的中间层会根据不同的文化背景进行调整。
🎯 应用场景
该研究成果可应用于提升多语言LLM的性能和可控性,例如,通过调整模型的训练策略,使其更好地利用目标语言的内部表征,从而提高生成质量。此外,该研究还可以帮助我们更好地理解LLM的内部运作机制,为开发更高效、更可靠的LLM提供理论指导。该研究对于开发面向特定语言或文化背景的LLM具有重要意义。
📄 摘要(原文)
In this study, we investigate whether non-English-centric LLMs, despite their strong performance,
think' in their respective dominant language: more precisely,think' refers to how the representations of intermediate layers, when un-embedded into the vocabulary space, exhibit higher probabilities for certain dominant languages during generation. We term such languages as internal $\textbf{latent languages}$. We examine the latent language of three typical categories of models for Japanese processing: Llama2, an English-centric model; Swallow, an English-centric model with continued pre-training in Japanese; and LLM-jp, a model pre-trained on balanced English and Japanese corpora. Our empirical findings reveal that, unlike Llama2 which relies exclusively on English as the internal latent language, Japanese-specific Swallow and LLM-jp employ both Japanese and English, exhibiting dual internal latent languages. For any given target language, the model preferentially activates the latent language most closely related to it. In addition, we explore how intermediate layers respond to questions involving cultural conflicts between latent internal and target output languages. We further explore how the language identity shifts across layers while keeping consistent semantic meaning reflected in the intermediate layer representations. This study deepens the understanding of non-English-centric large language models, highlighting the intricate dynamics of language representation within their intermediate layers.