IndicIFEval: A Benchmark for Verifiable Instruction-Following Evaluation in 14 Indic Languages

📄 arXiv: 2602.22125v1 📥 PDF

作者: Thanmay Jayakumar, Mohammed Safi Ur Rahman Khan, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan

分类: cs.CL

发布日期: 2026-02-25

备注: 8 pages + Appendix

🔗 代码/项目: GITHUB


💡 一句话要点

IndicIFEval:面向14种印度语言的可验证指令遵循评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令遵循 印度语 多语言 评估基准 自然语言处理

📋 核心要点

  1. 现有指令遵循基准主要集中于英语,缺乏对印度语等低资源语言的有效评估。
  2. IndicIFEval通过构建包含人工翻译和合成数据的多语言基准,评估模型在印度语环境下的指令遵循能力。
  3. 实验表明,模型在印度语上的指令遵循能力,尤其是在词汇和跨语言任务上,显著落后于英语。

📝 摘要(中文)

指令遵循基准主要集中在英语上,忽略了数亿印度语使用者的评估需求。本文提出了IndicIFEval,一个用于评估大型语言模型在14种印度语言中受约束生成能力的基准,该基准使用自动可验证的、基于规则的指令。它包含每种语言约800个人工验证的示例,分为两个互补的子集:IndicIFEval-Ground,即从IFEval翻译并为印度语环境仔细本地化的提示;以及IndicIFEval-Synth,即基于本地印度语内容合成生成的指令。我们对主要的开源和专有模型进行了全面评估,涵盖了推理和非推理模型。结果表明,模型在保持格式约束方面表现良好,但在词汇和跨语言任务中表现不佳。尽管在高资源语言方面取得了进展,但更广泛的印度语系列的指令遵循能力明显落后于英语。我们发布了IndicIFEval及其评估脚本,以支持多语言约束生成的研究进展。

🔬 方法详解

问题定义:现有指令遵循评估基准主要集中在英语,缺乏对包括印度语在内的其他语言的有效评估。这限制了大型语言模型在这些语言中的应用和发展。现有方法难以保证评估结果的可验证性和可靠性,尤其是在低资源语言环境下。

核心思路:本文的核心思路是构建一个多语言、可验证的指令遵循评估基准,即IndicIFEval,以弥补现有基准的不足。通过人工翻译和合成生成两种类型的指令数据,覆盖不同的评估场景,并采用基于规则的自动验证方法,确保评估结果的客观性和可信度。

技术框架:IndicIFEval包含两个主要的数据集子集:IndicIFEval-Ground和IndicIFEval-Synth。IndicIFEval-Ground是通过将IFEval中的英文提示翻译成14种印度语言,并进行本地化调整得到的。IndicIFEval-Synth是基于本地印度语内容,使用合成方法生成的指令数据。评估过程包括:1) 给定指令,模型生成输出;2) 使用预定义的规则自动验证生成的输出是否符合指令要求;3) 统计模型的准确率、召回率等指标,评估其指令遵循能力。

关键创新:IndicIFEval的关键创新在于:1) 它是首个针对多种印度语言的指令遵循评估基准;2) 它采用了人工翻译和合成相结合的数据生成方法,覆盖了不同的评估场景;3) 它使用了基于规则的自动验证方法,提高了评估结果的可验证性和可靠性。

关键设计:在数据生成方面,IndicIFEval-Ground的翻译过程经过了仔细的本地化调整,以确保指令在印度语环境下的语义一致性。IndicIFEval-Synth的合成方法考虑了印度语的语法和文化特点,以生成更自然的指令数据。在评估方面,基于规则的自动验证方法针对不同的指令类型设计了不同的验证规则,以确保评估的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,模型在IndicIFEval上的表现与英语环境相比存在显著差距,尤其是在词汇和跨语言任务上。即使是表现最好的模型,其在印度语上的指令遵循能力也远低于英语。这表明,现有模型在处理低资源语言方面仍有很大的提升空间,IndicIFEval可以作为评估和改进这些模型的重要工具。

🎯 应用场景

IndicIFEval可用于评估和改进大型语言模型在印度语环境下的指令遵循能力,促进自然语言处理技术在印度语社区的应用。该基准可以帮助开发者构建更智能、更适应本地需求的AI应用,例如智能客服、机器翻译、教育辅助等,从而服务于更广泛的印度语使用者。

📄 摘要(原文)

Instruction-following benchmarks remain predominantly English-centric, leaving a critical evaluation gap for the hundreds of millions of Indic language speakers. We introduce IndicIFEval, a benchmark evaluating constrained generation of LLMs across 14 Indic languages using automatically verifiable, rule-based instructions. It comprises around 800 human-verified examples per language spread across two complementary subsets: IndicIFEval-Ground, translated prompts from IFEval (Zhou et al., 2023) carefully localized for Indic contexts, and IndicIFEval-Ground, synthetically generated instructions grounded in native Indic content. We conduct a comprehensive evaluation of major open-weight and proprietary models spanning both reasoning and non-reasoning models. While models maintain strong adherence to formatting constraints, they struggle significantly with lexical and cross-lingual tasks -- and despite progress in high-resource languages, instruction-following across the broader Indic family lags significantly behind English. We release IndicIFEval and its evaluation scripts to support progress on multilingual constrained generation (http://github.com/ai4bharat/IndicIFEval).