The Latin Substrate: How Language Models Represent and Mediate Script Choice
作者: Daniil Gurgurov, Alan Saji, Katharina Trinley, Josef van Genabith, Simon Ostermann
分类: cs.CL
发布日期: 2026-05-29
备注: preprint
💡 一句话要点
揭示LLM中拉丁语底层偏好:探究语言模型如何表征和调解文字选择
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文字选择 表征学习 注意力机制 多语言处理
📋 核心要点
- 大型语言模型需要处理同一语言的不同文字形式,但其内部如何调解文字变异尚不清楚。
- 该研究通过分析LLM的内部表征和机制,揭示了模型在处理不同文字时的潜在罗马化现象。
- 实验表明,LLM对拉丁语文字存在偏好,并且文字选择由语言无关的注意力头调解。
📝 摘要(中文)
许多语言使用多种文字书写,这要求大型语言模型(LLM)以不同的正字法形式生成等效的语言内容。虽然先前的工作表明LLM通过共享的潜在表征来传递信息,但它们如何在内部调解文字变异仍然知之甚少。我们通过首先使用logit lens检查每层输出分布来研究这个问题,这揭示了音译过程中一致的潜在罗马化。然后,我们对脚本生成进行表征和机制分析。在表征层面,我们表明同一语言的不同文字在各层之间变得越来越可分离,并且一个简单的线性引导方向可以翻转模型的输出文字,同时在很大程度上保持语义内容。该向量非对称地推广到构建过程中未见过的书写系统,可靠地将非拉丁语输出翻转为拉丁语,但将拉丁语输出映射到各种非拉丁语文字。在机制层面,我们定位了一小组因果调解文字选择的后期注意力头。这些头跨不相关的语言和书写系统转移,表明文字路由是由语言无关的组件实现的。在两个分析中,我们都观察到一致的方向不对称性:非拉丁语输出由一个紧凑的、可识别的门产生,而拉丁语文字输出则来自网络中的分散贡献。总的来说,我们的发现暗示LLM围绕共享的潜在表征组织文字变异,同时表现出对拉丁语文字的特权底层。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)如何在内部处理和调解同一语言的不同文字形式。现有方法缺乏对LLM内部如何进行文字选择的深入理解,特别是不同文字之间的关系以及模型是否存在某种偏好。
核心思路:论文的核心思路是通过分析LLM在生成不同文字时的内部表征和机制,来揭示模型如何进行文字选择。具体来说,论文关注模型在不同层级的输出分布、文字表征的可分离性以及关键的注意力头的作用。
技术框架:论文采用了一种多层次的分析框架。首先,使用logit lens技术分析每层输出分布,以观察潜在的罗马化现象。其次,通过表征分析,研究不同文字在不同层级的可分离性,并探索线性引导方向对文字选择的影响。最后,通过机制分析,定位并分析关键的注意力头在文字选择中的作用。
关键创新:论文的关键创新在于揭示了LLM在处理不同文字时存在潜在的罗马化现象,并发现模型对拉丁语文字存在偏好。此外,论文还定位了一小组因果调解文字选择的注意力头,并发现这些头是语言无关的。
关键设计:论文使用了logit lens技术来分析每层输出分布。通过计算不同文字表征之间的距离,来衡量它们的可分离性。使用线性引导方向来翻转模型的输出文字。通过因果干预实验,来确定关键的注意力头在文字选择中的作用。
📊 实验亮点
研究发现,LLM在音译过程中表现出一致的潜在罗马化现象。实验表明,一个简单的线性引导方向可以翻转模型的输出文字,同时保持语义内容。该向量能够可靠地将非拉丁语输出翻转为拉丁语。此外,研究还定位了一小组因果调解文字选择的注意力头,这些头跨语言迁移。
🎯 应用场景
该研究的成果可以应用于改进多语言LLM的文字生成能力,例如,可以利用模型对拉丁语的偏好来提高非拉丁语文字的生成质量。此外,该研究还可以帮助我们更好地理解LLM的内部工作机制,为开发更高效、更可控的LLM提供指导。
📄 摘要(原文)
Many languages are written in multiple scripts, requiring large language models (LLMs) to generate equivalent linguistic content in distinct orthographic forms. While prior work suggests that LLMs route information through shared latent representations, how they internally mediate script variation remains poorly understood. We study this question by first examining per-layer output distributions with the logit lens, which reveals consistent latent romanization during transliteration, and then through representational and mechanistic analyses of script generation. At the representational level, we show that scripts of the same language become increasingly separable across layers and that a simple linear steering direction can flip a model's output script while largely maintaining semantic content. The vector generalizes asymmetrically to writing systems unseen during construction, flipping non-Latin output to Latin reliably, but mapping Latin output into varied non-Latin scripts. At the mechanistic level, we localize a small set of late-layer attention heads that causally mediate script choice. These heads transfer across unrelated languages and writing systems, suggesting that script routing is implemented by language-agnostic components. Across both analyses, we observe a consistent directional asymmetry: non-Latin output is produced by a compact, identifiable gate, while Latin-script output emerges from diffuse contributions across the network. Collectively, our findings hint that LLMs organize script variation around shared latent representations while exhibiting a privileged substrate toward Latin script.