Modeling Topics and Sociolinguistic Variation in Code-Switched Discourse: Insights from Spanish-English and Spanish-Guaraní

📄 arXiv: 2512.03334v1 📥 PDF

作者: Nemika Tyagi, Nelvin Licona Guevara, Olga Kellert

分类: cs.CL

发布日期: 2025-12-03

备注: 10 pages, 4 figures


💡 一句话要点

提出LLM辅助的标注流程,用于分析双语语篇中的主题和社会语言变异。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语码转换 大型语言模型 社会语言学 双语语篇 自动标注

📋 核心要点

  1. 现有方法在分析双语语篇中的社会语言变异和主题时,依赖大量人工标注,成本高昂且效率低下。
  2. 该论文提出利用大型语言模型(LLM)自动标注双语语篇,从而降低标注成本并提高分析效率。
  3. 实验结果表明,该方法能够可靠地恢复可解释的社会语言学模式,并扩展了早期社会语言学观察的结论。

📝 摘要(中文)

本研究提出了一种LLM辅助的标注流程,用于在类型学上不同的两种语境(西班牙语-英语和西班牙语-瓜拉尼语)中进行双语语篇的社会语言学和主题分析。利用大型语言模型,我们自动标注了总共3691个语码转换句子的主题、体裁和语篇-语用功能,整合了来自迈阿密双语语料库的人口统计元数据,并使用新的主题标注丰富了西班牙语-瓜拉尼语数据集。由此产生的分布揭示了迈阿密数据中性别、语言优势和语篇功能之间的系统联系,以及巴拉圭文本中正式瓜拉尼语和非正式西班牙语之间清晰的双层语言划分。这些发现通过语料库规模的定量证据复制并扩展了早期互动和社会语言学观察。该研究表明,大型语言模型可以可靠地恢复传统上只能通过手动标注才能获得的、可解释的社会语言学模式,从而推进了跨语言和低资源双语研究的计算方法。

🔬 方法详解

问题定义:该论文旨在解决双语语篇中社会语言变异和主题分析的问题。传统方法依赖于耗时且昂贵的手动标注,限制了研究的规模和范围。现有方法难以有效处理跨语言和低资源双语研究。

核心思路:核心思路是利用大型语言模型(LLM)的强大能力,自动标注双语语篇中的主题、体裁和语篇-语用功能。通过LLM的自动标注,可以显著减少人工标注的工作量,从而实现对大规模双语语篇的分析。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集西班牙语-英语和西班牙语-瓜拉尼语的语码转换语篇数据。2) LLM标注:使用大型语言模型自动标注语篇的主题、体裁和语篇-语用功能。3) 数据整合:整合人口统计元数据(例如,来自迈阿密双语语料库的数据)。4) 结果分析:分析标注结果,揭示社会语言变异和主题之间的关系。

关键创新:该研究的关键创新在于利用LLM自动标注双语语篇,从而降低了标注成本,并实现了对大规模语料库的分析。与传统的手动标注方法相比,该方法具有更高的效率和可扩展性。此外,该研究还探索了LLM在跨语言和社会语言学研究中的应用。

关键设计:该研究的关键设计包括:1) 选择合适的LLM模型进行标注。2) 设计有效的提示工程(prompt engineering)策略,以提高LLM标注的准确性。3) 使用适当的评估指标来评估LLM标注的质量。4) 针对不同的语言对(西班牙语-英语和西班牙语-瓜拉尼语)进行定制化的标注流程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,LLM能够可靠地恢复可解释的社会语言学模式,并扩展了早期社会语言学观察的结论。例如,在迈阿密数据中,揭示了性别、语言优势和语篇功能之间的系统联系。在巴拉圭文本中,发现了正式瓜拉尼语和非正式西班牙语之间清晰的双层语言划分。这些发现验证了LLM在社会语言学研究中的有效性。

🎯 应用场景

该研究成果可应用于社会语言学、自然语言处理、教育等领域。例如,可以用于分析双语教育中的语言使用情况,研究社会因素对语言选择的影响,以及开发更有效的跨语言交流工具。该方法对于低资源语言的研究具有重要意义。

📄 摘要(原文)

This study presents an LLM-assisted annotation pipeline for the sociolinguistic and topical analysis of bilingual discourse in two typologically distinct contexts: Spanish-English and Spanish-Guaraní. Using large language models, we automatically labeled topic, genre, and discourse-pragmatic functions across a total of 3,691 code-switched sentences, integrated demographic metadata from the Miami Bilingual Corpus, and enriched the Spanish-Guaraní dataset with new topic annotations. The resulting distributions reveal systematic links between gender, language dominance, and discourse function in the Miami data, and a clear diglossic division between formal Guaraní and informal Spanish in Paraguayan texts. These findings replicate and extend earlier interactional and sociolinguistic observations with corpus-scale quantitative evidence. The study demonstrates that large language models can reliably recover interpretable sociolinguistic patterns traditionally accessible only through manual annotation, advancing computational methods for cross-linguistic and low-resource bilingual research.