Evaluating Cross-lingual Knowledge Consistency in Code-Mixed vis-a-vis Indian Languages using IndicKLAR
作者: Debajyoti Mazumder, Divyansh Pathak, Prashant Kodali, Aditya Joshi, Akshay Agarwal, Jasabanta Patro
分类: cs.CL
发布日期: 2026-05-28
备注: 23 pages
💡 一句话要点
IndiKLAR揭示了代码混合输入在提升印度语言知识一致性方面的作用
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨语言知识一致性 代码混合 印度语言 大型语言模型 评估基准
📋 核心要点
- 现有大型语言模型在低资源语言上的知识回忆能力不足,尤其是在印度语言及其代码混合变体中,跨语言一致性有待提升。
- 论文提出了IndiKLAR基准,涵盖多种印度语言及其代码混合形式,旨在研究不同输入形式(英语、代码混合、本地语言)下的知识回忆一致性。
- 实验结果表明,代码混合输入能够显著缩小本地语言与英语之间的性能差距,无需模型层面的额外干预,并发现了一个性能翻转点。
📝 摘要(中文)
大型语言模型在英语中能够可靠地回忆知识,但在以低资源语言提出的相同查询中常常失败。为了研究印度语言及其代码混合变体的跨语言一致性差距,我们引入了IndiKLAR,它是KLAR-CLC基准的印度语言扩展,涵盖了22种印度表列语言中的18种,并将它们与11种广泛使用的语言对的代码混合变体配对,这些设置的单语和代码混合变体都经过了母语人士的验证。这种三向对齐提供了一个独特的机会来检查知识回忆一致性如何在英语、代码混合和本地印度语言输入的范围内变化。对九个开放权重模型的评估表明,本地语言与英语的准确率差距可能达到约0.50,而代码混合输入消除了大部分差距,使性能在没有任何模型层面干预的情况下达到英语的约0.05以内。受此启发,我们评估了几种提示策略,这些策略在语言转换的暴露方式上有所不同,包括两阶段的翻译-然后回答设置、单阶段的联合翻译和回答提示,以及Translate-in-Thought (TinT)——一种单步策略,其中模型在内部转换输入并仅发出最终答案。在本地语言→代码混合→英语的性能轨迹中,我们确定了一个一致的翻转点——不正确和正确预测之间的边界——位于本地语言和代码混合设置之间。有趣的是,无论轨迹是由输入表面形式还是由模型的内部转换过程引起的,这都成立。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在跨语言知识一致性方面的问题,特别是在印度语言及其代码混合场景下。现有方法在处理低资源语言时,知识回忆能力显著下降,导致在这些语言上的应用受限。此外,缺乏针对印度语言代码混合场景的专门评估基准,难以系统性地研究和提升模型在该领域的性能。
核心思路:论文的核心思路是通过构建一个包含多种印度语言及其代码混合变体的评估基准IndiKLAR,来系统性地评估和分析大型语言模型在不同语言输入下的知识回忆一致性。同时,探索不同的提示策略,利用代码混合输入来提升模型在本地语言上的性能。
技术框架:论文的技术框架主要包括以下几个部分:1)构建IndiKLAR基准,涵盖多种印度语言及其代码混合变体;2)使用IndiKLAR评估多个开源大型语言模型在不同语言输入下的知识回忆性能;3)设计并评估不同的提示策略,包括两阶段翻译-回答、单阶段联合翻译-回答以及Translate-in-Thought (TinT);4)分析不同提示策略对模型性能的影响,并识别性能翻转点。
关键创新:论文的关键创新在于:1)提出了IndiKLAR基准,为印度语言及其代码混合场景下的跨语言知识一致性评估提供了标准;2)揭示了代码混合输入在提升本地语言知识回忆性能方面的作用,无需模型层面的额外干预;3)提出了Translate-in-Thought (TinT)提示策略,通过让模型内部进行语言转换,提升最终答案的准确性;4)发现了性能翻转点,为理解模型在不同语言输入下的行为提供了新的视角。
关键设计:IndiKLAR基准涵盖18种印度表列语言中的18种,并与11种广泛使用的语言对的代码混合变体配对。提示策略方面,两阶段翻译-回答首先将输入翻译成英语,然后进行回答;单阶段联合翻译-回答同时进行翻译和回答;Translate-in-Thought (TinT)让模型在内部进行语言转换,只输出最终答案。实验中评估了九个开放权重模型,并分析了不同提示策略对模型性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,本地语言与英语的准确率差距可达0.50,而代码混合输入能够显著缩小这一差距,使性能提升至与英语相差0.05以内,无需任何模型层面的干预。此外,Translate-in-Thought (TinT)提示策略也表现出一定的性能提升。研究还发现了一个性能翻转点,位于本地语言和代码混合设置之间。
🎯 应用场景
该研究成果可应用于提升大型语言模型在多语言环境下的性能,尤其是在印度等语言多样性高的地区。通过利用代码混合输入,可以改善模型在低资源语言上的知识回忆能力,从而促进自然语言处理技术在这些地区的普及和应用。此外,IndiKLAR基准可以作为评估和改进多语言模型的重要工具。
📄 摘要(原文)
Large language models recall knowledge reliably in English but often fail on the same query posed in a lower-resourced language -- a crosslingual consistency gap that remains underexplored for Indian languages and their code-mixed counterparts. To study this gap, we introduce IndiKLAR, an Indic extension of the KLAR-CLC benchmark covering 18 of the 22 scheduled Indian languages and pairing them with code-mixed variants for 11 widely used language pairs, with native-speaker verification of both monolingual and code-mixed variants for these 11 settings. This three-way alignment offers a unique opportunity to examine how knowledge recall consistency varies across the spectrum of English, code-mixed, and native Indian language inputs. Evaluating across nine open-weight models, we find that the native-language accuracy gap to English can reach $\sim$0.50, while code-mixed inputs close most of it -- bringing performance within $\sim$0.05 of English without any model-level intervention. Motivated by this, we evaluate several prompting strategies that vary in how language conversion is exposed, including a two-stage translate-then-answer setup, a one-stage joint translation-and-answer prompt, and Translate-in-Thought (TinT) -- a single-step strategy in which the model converts the input internally and emits only the final answer. Across the performance trajectory native $\rightarrow$ code-mixed $\rightarrow$ English, we identify a consistent flip point -- the boundary between incorrect and correct prediction -- that lies between the native and code-mixed settings. Interestingly, this holds whether the trajectory is induced by the input surface form or by the model's internal conversion process.