Do LLMs Know What Luxembourgish Borrows? Probing Lexical Neology in Low-Resource Multilingual Models
作者: Nina Hosseini-Kivanani
分类: cs.CL
发布日期: 2026-05-20
备注: Accepted to Neollm colocated with LREC2026, Three figures and three tables
💡 一句话要点
提出LexNeo-Bench基准,研究LLM在低资源语言中词汇借用和创新能力,并提出知识图谱增强的prompt方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低资源语言 词汇借用 语言模型 知识图谱 Prompt工程
📋 核心要点
- 现有LLM在低资源接触语言的词汇借用和创新方面表现不足,缺乏对社区规范的尊重。
- 构建LexNeo-Bench基准,并提出基于语言知识图谱增强的prompt方法,为LLM提供词汇借用和创新的相关知识。
- 实验表明,知识图谱prompt显著提升了LLM在借用类型分类任务上的准确率,缩小了不同规模模型间的差距。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用于小型接触语言的写作辅助,但它们是否尊重关于词汇借用和创新的社区规范尚不清楚。我们引入了LexNeo-Bench,这是一个包含3,050个实例的token级别基准,它源自LuxBorrow,一个大规模的卢森堡语新闻语料库,其中目标token被标记为本土词或法语、德语或英语借用词。使用此基准,我们通过34种prompt设置在两个任务上探测了三个多语言LLM:借用类型分类和二元词汇创新代理(借用与本土)。在没有外部上下文的情况下,模型在借用分类上的表现仅略高于偶然水平,因此我们构建了一个语言知识图谱,该图谱编码了捐赠语言、形态模式和词汇类似物,并将特定于实例的子图注入到prompt中。知识图谱prompt将借用分类准确率从25%-35%提高到71%-81%,并在很大程度上缩小了小型模型和大型模型之间的差距,同时使新词检测变得困难且对少量样本设计敏感。我们的结果表明,感知词汇的prompt对于低资源接触语言中的鲁棒借用判断非常有益,并且词汇资源可以作为LLM评估的结构化上下文。这项研究是在ENEOLI COST Action中进行的,并研究了借用作为多语言卢森堡语数据中词汇创新的一种形式。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在低资源接触语言(如卢森堡语)中,对于词汇借用和创新行为的理解和判断能力不足的问题。现有的LLM在处理这类语言时,往往无法准确区分本土词汇和外来借用词,也难以遵循该语言社区对于词汇使用的规范,这限制了LLM在该语言环境下的应用。
核心思路:论文的核心思路是通过构建一个专门的词汇借用基准(LexNeo-Bench),并结合语言知识图谱,为LLM提供关于词汇来源、形态变化和语义关联的结构化信息。通过将这些信息融入到LLM的prompt中,引导模型更好地理解和判断词汇的借用类型和创新性。
技术框架:整体框架包括以下几个主要步骤:1) 构建LexNeo-Bench基准,该基准包含卢森堡语新闻语料,并对每个token标注其词源(本土、法语、德语、英语)。2) 构建语言知识图谱,该图谱包含词汇的捐赠语言、形态模式和词汇类似物等信息。3) 设计不同的prompt策略,包括不带上下文的prompt、带少量样本的prompt和带知识图谱信息的prompt。4) 使用不同的多语言LLM(包括小型和大型模型)在LexNeo-Bench上进行测试,评估其在借用类型分类和词汇创新检测任务上的表现。
关键创新:最重要的技术创新点在于将语言知识图谱的信息融入到LLM的prompt中。这种方法使得LLM能够利用结构化的外部知识,从而更好地理解和判断词汇的借用类型。与传统的few-shot learning方法相比,知识图谱prompt能够提供更丰富、更准确的上下文信息,从而显著提升模型的性能。
关键设计:知识图谱的构建是关键设计之一,需要准确地编码词汇的来源、形态变化和语义关联。Prompt的设计也至关重要,需要有效地将知识图谱的信息传递给LLM,同时避免引入噪声或偏差。此外,实验中使用了不同的prompt策略和模型规模,以评估知识图谱prompt的有效性和鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在借用类型分类任务中,使用知识图谱prompt可以将LLM的准确率从25%-35%显著提升到71%-81%。此外,知识图谱prompt还缩小了小型模型和大型模型之间的性能差距,表明该方法对于提升低资源语言处理能力具有重要价值。然而,新词检测任务仍然具有挑战性,且对少量样本设计敏感。
🎯 应用场景
该研究成果可应用于低资源语言的自然语言处理任务,例如机器翻译、文本生成和语言学习。通过提升LLM对词汇借用和创新的理解能力,可以改善这些任务的性能,并促进低资源语言的数字化发展。此外,该研究提出的知识图谱增强prompt方法也可以推广到其他需要外部知识的任务中。
📄 摘要(原文)
Large language models (LLMs) are increasingly used for writing assistance in small contact languages, yet it is unclear whether they respect community norms around lexical borrowing and neology. We introduce LexNeo-Bench, a 3{,}050-instance token-level benchmark derived from LuxBorrow, a large-scale Luxembourgish news corpus, where target tokens are labelled as native or as French, German, or English borrowings. Using this benchmark, we probe three multilingual LLMs across 34 prompt settings on two tasks: borrowing type classification and a binary lexical-innovation proxy (borrowing versus native). Without external context, models perform only slightly above chance on borrowing classification, so we construct a linguistic knowledge graph that encodes donor language, morphological patterns, and lexical analogues, and inject instance-specific subgraphs into the prompt. Knowledge-graph prompts raise borrowing classification accuracy from 25 -- 35\% up to 71 -- 81\% and largely close the gap between small and large models, while leaving neology detection difficult and sensitive to few-shot design. Our results show that lexicon-aware prompting is highly beneficial for robust borrowing judgments in low-resource contact languages and that lexical resources can serve as structured context for LLM evaluation. This study was carried out within the ENEOLI COST Action and examines borrowing as a form of lexical innovation in multilingual Luxembourgish data.