OLA: Output Language Alignment in Code-Switched LLM Interactions

📄 arXiv: 2601.03589v1 📥 PDF

作者: Juhyun Oh, Haneul Yoo, Faiz Ghifari Haznitrama, Alice Oh

分类: cs.CL

发布日期: 2026-01-07


💡 一句话要点

OLA:提出用于评估LLM在混合语境中输出语言对齐的基准测试。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语码转换 大型语言模型 输出语言对齐 基准测试 多语言处理

📋 核心要点

  1. 现有LLM在处理用户语码转换时,难以准确推断用户期望的输出语言,导致输出与用户期望不符。
  2. 论文提出OLA基准测试,用于评估LLM在韩英混合语境下的输出语言对齐能力,并扩展到其他语言对。
  3. 实验表明,现有模型存在对非英语响应的偏见,且思维链提示无法有效解决,但通过少量数据进行DPO训练可显著改善。

📝 摘要(中文)

在对话中进行语码转换(即在不同语言之间切换)对于多语言用户来说很自然,但对于大型语言模型(LLM)来说却带来了根本性的挑战。当用户在提示词中进行语码转换时,他们通常不会指定LLM响应的预期语言,因此LLM必须从上下文和语用线索中推断输出语言。我们发现,当前的LLM系统性地未能与这种期望对齐,即使对于人类来说线索很明显,也会以不希望的语言做出响应。我们引入了OLA,一个用于评估LLM在语码转换交互中输出语言对齐的基准测试。OLA侧重于韩语-英语语码转换,涵盖了简单的句子内混合到指令-内容不匹配。即使是最先进的模型也经常错误地解释隐含的语言期望,表现出对非英语响应的偏见。我们进一步表明,这种偏见可以推广到韩语以外的汉语和印尼语。模型还表现出不稳定性,包括响应中途切换和语言入侵。思维链提示未能解决这些错误,表明关于输出语言的语用推理能力较弱。然而,通过使用少量数据(约1K个示例)进行语码转换感知的DPO训练,可以显著减少错位,这表明这些失败源于对齐不足,而不是根本的局限性。我们的结果强调了使多语言LLM与用户在真实语码转换交互中的隐含期望对齐的必要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在处理用户语码转换输入时,无法准确推断用户期望的输出语言的问题。现有方法的痛点在于,即使人类可以轻松理解语境中的语言线索,LLM仍然倾向于输出非期望的语言,导致用户体验不佳。

核心思路:论文的核心思路是通过构建一个专门的基准测试(OLA)来系统地评估LLM在语码转换场景下的输出语言对齐能力。通过分析模型在不同类型的语码转换场景下的表现,揭示模型存在的偏见和不足,并探索可能的改进方法。

技术框架:OLA基准测试主要关注韩语-英语语码转换,但也扩展到汉语和印尼语。测试用例涵盖了从简单的句子内混合到指令-内容不匹配等多种场景。论文还探索了使用思维链提示来改善模型性能,并尝试使用语码转换感知的DPO(Direct Preference Optimization)训练方法来对齐模型。

关键创新:论文的主要创新在于提出了OLA基准测试,这是一个专门用于评估LLM在语码转换场景下输出语言对齐能力的工具。此外,论文还发现,通过少量数据进行语码转换感知的DPO训练可以显著改善模型的对齐效果,表明现有模型的不足主要在于对齐不足,而非根本的语言理解能力。

关键设计:OLA基准测试的设计考虑了多种语码转换场景,包括句子内混合、指令-内容不匹配等。DPO训练使用了约1K个示例,并针对语码转换场景进行了优化。具体的损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。

📊 实验亮点

实验结果表明,现有LLM在OLA基准测试上表现不佳,存在对非英语响应的偏见。思维链提示未能有效解决这些问题。然而,通过使用少量(约1K)语码转换数据进行DPO训练,可以显著减少语言错位现象,表明模型具有提升潜力。具体性能提升数据在论文中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于多语言聊天机器人、智能助手等领域,提升LLM在处理混合语言输入时的准确性和用户体验。通过提高LLM的语码转换能力,可以更好地服务于全球多语言用户,促进跨文化交流和信息共享。未来的研究可以进一步探索更复杂的语码转换模式和更多语言组合。

📄 摘要(原文)

Code-switching, alternating between languages within a conversation, is natural for multilingual users, yet poses fundamental challenges for large language models (LLMs). When a user code-switches in their prompt to an LLM, they typically do not specify the expected language of the LLM response, and thus LLMs must infer the output language from contextual and pragmatic cues. We find that current LLMs systematically fail to align with this expectation, responding in undesired languages even when cues are clear to humans. We introduce OLA, a benchmark to evaluate LLMs' Output Language Alignment in code-switched interactions. OLA focuses on Korean--English code-switching and spans simple intra-sentential mixing to instruction-content mismatches. Even frontier models frequently misinterpret implicit language expectation, exhibiting a bias toward non-English responses. We further show this bias generalizes beyond Korean to Chinese and Indonesian pairs. Models also show instability through mid-response switching and language intrusions. Chain-of-Thought prompting fails to resolve these errors, indicating weak pragmatic reasoning about output language. However, Code-Switching Aware DPO with minimal data (about 1K examples) substantially reduces misalignment, suggesting these failures stem from insufficient alignment rather than fundamental limitations. Our results highlight the need to align multilingual LLMs with users' implicit expectations in real-world code-switched interactions.