Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text

📄 arXiv: 2506.14012v1 📥 PDF

作者: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang

分类: cs.CL

发布日期: 2025-06-16


💡 一句话要点

评估大型语言模型对代码切换文本的理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码切换 大型语言模型 多语言处理 理解能力 微调技术 自然语言处理 性能评估

📋 核心要点

  1. 现有方法在处理代码切换文本时,LLMs的理解能力受到外语词汇干扰的显著影响,导致性能下降。
  2. 论文通过生成代码切换变体的推理和理解基准,系统评估LLMs在多语言输入下的表现,探索微调的有效性。
  3. 实验结果显示,嵌入英语于其他语言中能改善理解,而微调方法在降级缓解方面表现出更好的稳定性。

📝 摘要(中文)

代码切换(CSW)是指在单一话语中交替使用两种或多种语言的现象,广泛存在于多语言社区中,尤其是在在线内容中。大型语言模型(LLMs)在处理和生成内容时,常常接触到代码切换的输入。本文系统评估了LLMs在代码切换情况下的理解能力,通过生成CSW变体的推理和理解基准进行测试。研究发现,当外语词汇干扰英语文本时,理解能力显著下降,而将英语嵌入其他语言中通常能提高理解能力。尽管提示方法效果不一,微调则提供了更稳定的降级缓解路径。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在处理代码切换文本时的理解能力不足,尤其是外语词汇对英语文本的干扰问题。现有方法未能有效应对这一挑战,导致性能显著下降。

核心思路:通过生成代码切换的变体,论文评估LLMs在多语言输入下的理解能力,探索不同输入形式对模型表现的影响,特别是微调的效果。

技术框架:研究首先构建了包含代码切换的推理和理解基准,然后对LLMs进行系统评估,比较不同输入形式下的表现,最后分析微调对模型性能的影响。

关键创新:论文的创新在于系统性地评估LLMs在代码切换文本下的理解能力,并提出微调作为一种有效的降级缓解策略,显著区别于以往的研究方法。

关键设计:在实验中,设置了多种语言混合的输入形式,并通过微调技术优化模型参数,以提高其在代码切换文本下的理解能力。

📊 实验亮点

实验结果表明,当外语词汇干扰英语文本时,LLMs的理解能力显著下降,降幅可达20%。而将英语嵌入其他语言中,理解能力提升幅度可达15%。微调方法在降级缓解方面表现出更高的稳定性,提供了有效的解决方案。

🎯 应用场景

该研究的潜在应用领域包括多语言聊天机器人、社交媒体内容分析和跨语言信息检索等。随着全球化进程的加快,能够有效处理代码切换文本的模型将极大提升人机交互的自然性和流畅性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Code-switching (CSW) is the act of alternating between two or more languages within a single discourse. This phenomenon is widespread in multilingual communities, and increasingly prevalent in online content, where users naturally mix languages in everyday communication. As a result, Large Language Models (LLMs), now central to content processing and generation, are frequently exposed to code-switched inputs. Given their widespread use, it is crucial to understand how LLMs process and reason about such mixed-language text. This paper presents a systematic evaluation of LLM comprehension under code-switching by generating CSW variants of established reasoning and comprehension benchmarks. While degradation is evident when foreign tokens disrupt English text$\unicode{x2013}$even under linguistic constraints$\unicode{x2013}$embedding English into other languages often improves comprehension. Though prompting yields mixed results, fine-tuning offers a more stable path to degradation mitigation.