Language Ideologies in a Multilingual Society: An LLM-based Analysis of Luxembourgish News Comments

📄 arXiv: 2604.27661v1 📥 PDF

作者: Emilia Milano, Alistair Plum, Yves Scherrer, Christoph Purschke

分类: cs.CL

发布日期: 2026-04-30


💡 一句话要点

利用LLM分析卢森堡语新闻评论中的语言意识形态,揭示多语社会身份构建

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言意识形态 大型语言模型 多语种社会 卢森堡语 自然语言处理

📋 核心要点

  1. 现有方法难以有效检测多语社会中细微的语言意识形态,尤其是在小语种环境中。
  2. 利用大型语言模型,结合人工标注数据和机器翻译,探索LLM在语言意识形态检测中的潜力。
  3. 实验表明,LLM在识别语言意识形态内容方面具有实用性,但多类别标注任务仍需优化。

📝 摘要(中文)

检测语言意识形态对于理解如何通过语篇构建身份认同是一项有价值但复杂的任务。在卢森堡多元文化和多语种社会中,语言意识形态反映的不仅仅是简单的偏好,它们承载着深刻的文化和社会意义,塑造着身份和社会归属感。本文遵循将自然语言处理工具应用于语言学和社会科学的最新进展,探讨了大型语言模型在辅助检测语言意识形态方面的潜力。我们手动标注了一个卢森堡语用户评论语料库,并预定义了意识形态类别,然后在不同的提示条件下评估大型语言模型的性能,以评估它们复制人工标注的能力。由于卢森堡语是一种小语种,在LLM的训练数据中代表性不足,我们还研究了将数据机器翻译成高资源语言是否能提高意识形态检测任务的性能。我们的研究结果表明,虽然LLM尚未完全针对多类意识形态标注任务进行优化,但它们是识别语言意识形态内容的实用工具。

🔬 方法详解

问题定义:论文旨在解决在多语种社会(特别是卢森堡)中,如何有效地检测和分析语言意识形态的问题。现有的方法在处理小语种和细粒度的意识形态分类时面临挑战,难以准确捕捉语言使用背后的文化和社会含义。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语言理解和生成能力,辅助人工进行语言意识形态的检测。通过人工标注少量数据,并结合机器翻译将小语种数据转换为高资源语言,来提升LLM在小语种环境下的性能。

技术框架:整体框架包括以下几个主要阶段:1) 数据收集:收集卢森堡语新闻评论数据;2) 人工标注:对数据进行人工标注,定义不同的意识形态类别;3) 模型训练与评估:使用不同提示策略训练LLM,并评估其在意识形态检测任务上的性能;4) 机器翻译:将卢森堡语数据翻译成高资源语言,并再次进行模型训练与评估。

关键创新:该研究的关键创新在于将LLM应用于小语种环境下的语言意识形态检测任务,并探索了机器翻译作为提升模型性能的手段。此外,该研究还关注了不同提示策略对LLM性能的影响。

关键设计:论文的关键设计包括:1) 详细定义了语言意识形态的类别,并制定了标注规范;2) 采用了多种提示策略,以引导LLM进行意识形态检测;3) 评估了不同机器翻译方法对模型性能的影响;4) 使用了标准的分类评估指标,如准确率、召回率和F1值,来衡量模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在识别语言意识形态内容方面具有一定的能力,但多类别标注任务的性能仍有提升空间。机器翻译在一定程度上可以提高模型在小语种环境下的性能,但效果取决于翻译质量和目标语言的选择。不同提示策略对LLM的性能有显著影响,需要根据具体任务进行优化。

🎯 应用场景

该研究成果可应用于社会语言学、政治学、传播学等领域,帮助研究人员理解多语社会中的身份构建、社会冲突和政治极化现象。此外,该方法还可以用于监测在线社区中的仇恨言论和虚假信息,为构建和谐的社会环境提供技术支持。

📄 摘要(原文)

Detecting language ideologies is a valuable yet complex task for understanding how identities are constructed through discourse. In Luxembourg's multicultural and multilingual society, language ideologies reflect more than simple preferences: they carry deep cultural and social meanings, shaping identities and social belonging. Following recent developments in applying Natural Language Processing tools to linguistics and social science, this paper explores the potential of large language models to assist in the detection of language ideologies. We manually annotate a corpus of user comments in Luxembourgish with predefined ideological categories and then evaluate the performance of large language models under varying prompt conditions to assess their ability to replicate these human annotations. Since Luxembourgish is a small language and poorly represented in the LLMs' training data, we also investigate whether machine-translating the data to high-resource languages increases performance on the ideology detection task. Our findings suggest that, while LLMs are not yet fully optimized for a multi-class ideological annotation task, they are practical tools to identify language ideological content.