Can Large Language Models Understand, Reason About, and Generate Code-Switched Text?

📄 arXiv: 2601.07153v1 📥 PDF

作者: Genta Indra Winata, David Anugraha, Patrick Amadeus Irawan, Anirban Das, Haneul Yoo, Paresh Dashore, Shreyas Kulkarni, Ruochen Zhang, Haruki Sakajo, Frederikus Hudi, Anaelia Ovalle, Syrielle Montariol, Felix Gaschi, Michael Anugraha, Rutuj Ravindra Puranik, Zawad Hayat Ahmed, Adril Putra Merin, Emmanuele Chersoni

分类: cs.CL, cs.AI

发布日期: 2026-01-12

备注: Preprint


💡 一句话要点

提出CodeMixQA基准,评估LLM在代码切换文本理解、推理和生成能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码切换 大型语言模型 多语言处理 问答系统 自然语言生成

📋 核心要点

  1. 现有大型语言模型在处理混合语言的代码切换文本时,其理解和推理能力仍有不足,鲁棒性有待提高。
  2. 论文提出CodeMixQA基准,包含多种语言对和代码切换模式,用于评估LLM在代码切换文本上的理解、推理和生成能力。
  3. 实验结果揭示了LLM在代码切换场景下的推理和生成能力存在挑战,为构建更鲁棒的多语言LLM提供了指导。

📝 摘要(中文)

代码切换是多语言交流中普遍存在的现象,但大型语言模型(LLM)在混合语言环境中的鲁棒性尚未得到充分理解。本文全面评估了LLM在理解、推理和生成代码切换文本方面的能力。我们提出了CodeMixQA,这是一个包含高质量人工标注的新基准,包括16种不同的并行代码切换语言对变体,涵盖多个地理区域和代码切换模式,并包括原始脚本及其音译形式。使用此基准,我们分析了LLM在代码切换问答任务中的推理行为,阐明了模型如何处理和推理混合语言输入。我们进一步对LLM生成的合成代码切换文本进行了系统评估,重点关注自然性和语义保真度,并揭示了当前生成能力的关键局限性。我们的研究结果揭示了在代码切换条件下推理和生成方面持续存在的挑战,并为构建更强大的多语言LLM提供了可操作的见解。我们将数据集和代码开源。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在处理代码切换文本时,理解、推理和生成能力不足的问题。现有方法缺乏对LLM在混合语言环境下的鲁棒性的充分评估,并且缺乏高质量的代码切换数据集用于训练和评估。

核心思路:论文的核心思路是通过构建一个高质量的代码切换问答基准(CodeMixQA),系统地评估LLM在理解、推理和生成代码切换文本方面的能力。通过分析LLM在CodeMixQA上的表现,揭示其在处理混合语言输入时的局限性,并为改进LLM的鲁棒性提供指导。

技术框架:论文主要包含以下几个部分:1) 构建CodeMixQA基准,包含16种不同的并行代码切换语言对变体,涵盖多个地理区域和代码切换模式。2) 使用CodeMixQA评估LLM在代码切换问答任务中的推理行为。3) 系统评估LLM生成的合成代码切换文本的自然性和语义保真度。4) 分析实验结果,揭示LLM在代码切换场景下的局限性。

关键创新:论文的关键创新在于提出了CodeMixQA基准,这是一个高质量、多样化的代码切换数据集,可以用于评估LLM在混合语言环境下的理解、推理和生成能力。此外,论文还对LLM生成的代码切换文本进行了系统评估,关注自然性和语义保真度,为改进LLM的生成能力提供了新的视角。

关键设计:CodeMixQA基准包含16种不同的并行代码切换语言对变体,涵盖多种代码切换模式,包括插入式代码切换和交替式代码切换。数据集包含原始脚本及其音译形式,以适应不同的LLM输入格式。在评估LLM的生成能力时,论文使用了多种指标,包括BLEU、ROUGE和BERTScore,以衡量生成文本的自然性和语义保真度。

📊 实验亮点

实验结果表明,现有的LLM在CodeMixQA基准上表现不佳,尤其是在推理和生成代码切换文本方面。例如,在某些语言对上,LLM的问答准确率低于随机猜测水平。对LLM生成的代码切换文本的评估也表明,其自然性和语义保真度仍有待提高。这些结果表明,在代码切换场景下,LLM仍面临着巨大的挑战,需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于多语言聊天机器人、跨语言信息检索、机器翻译等领域。通过提升LLM在代码切换场景下的理解和生成能力,可以构建更自然、更流畅的多语言人机交互系统,并促进不同语言文化之间的交流与理解。未来的研究可以进一步探索如何利用CodeMixQA基准来训练和微调LLM,以提高其在代码切换场景下的性能。

📄 摘要(原文)

Code-switching is a pervasive phenomenon in multilingual communication, yet the robustness of large language models (LLMs) in mixed-language settings remains insufficiently understood. In this work, we present a comprehensive evaluation of LLM capabilities in understanding, reasoning over, and generating code-switched text. We introduce CodeMixQA a novel benchmark with high-quality human annotations, comprising 16 diverse parallel code-switched language-pair variants that span multiple geographic regions and code-switching patterns, and include both original scripts and their transliterated forms. Using this benchmark, we analyze the reasoning behavior of LLMs on code-switched question-answering tasks, shedding light on how models process and reason over mixed-language inputs. We further conduct a systematic evaluation of LLM-generated synthetic code-switched text, focusing on both naturalness and semantic fidelity, and uncover key limitations in current generation capabilities. Our findings reveal persistent challenges in both reasoning and generation under code-switching conditions and provide actionable insights for building more robust multilingual LLMs. We release the dataset and code as open source.