IndiaFinBench: An Evaluation Benchmark for Large Language Model Performance on Indian Financial Regulatory Text
作者: Rajveer Singh Pall
分类: cs.CL, cs.AI, cs.IR
发布日期: 2026-04-21
备注: 24 pages, 4 figures, 11 tables. Dataset and evaluation code at https://github.com/rajveerpall/IndiaFinBench
🔗 代码/项目: GITHUB
💡 一句话要点
IndiaFinBench:首个面向印度金融监管文本的大语言模型评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 金融NLP 大语言模型 评估基准 印度金融监管 问答数据集 零样本学习 数值推理
📋 核心要点
- 现有金融NLP基准主要集中于西方金融语料,缺乏对非西方监管框架的覆盖,限制了LLM在这些地区的适用性。
- IndiaFinBench通过构建包含印度金融监管文本的问答对数据集,为评估LLM在印度金融领域的理解和推理能力提供了基准。
- 实验结果表明,现有LLM在IndiaFinBench上表现良好,但数值推理任务仍具有挑战性,为未来研究提供了方向。
📝 摘要(中文)
本文介绍了IndiaFinBench,据我们所知,这是首个公开可用的评估基准,用于评估大型语言模型(LLM)在印度金融监管文本上的性能。现有的金融NLP基准完全来自西方金融语料库(SEC文件、美国盈利报告和英语金融新闻),在非西方监管框架的覆盖方面存在显著差距。IndiaFinBench通过406个由专家注释的问答对来解决这一差距,这些问答对来自印度证券交易委员会(SEBI)和印度储备银行(RBI)的192份文件,涵盖四种任务类型:监管解释(174项)、数值推理(92项)、矛盾检测(62项)和时间推理(78项)。注释质量通过基于模型的二次验证(矛盾检测的kappa=0.918)和60项人工注释者间一致性评估(kappa=0.611;总体一致性76.7%)进行验证。我们在零样本条件下评估了12个模型,准确率从70.4%(Gemma 4 E4B)到89.7%(Gemini 2.5 Flash)不等。所有模型都显著优于60.0%的非专业人士基线。数值推理是最具区分性的任务,模型之间的差距为35.9个百分点。Bootstrap显著性检验(10,000次重采样)揭示了三个统计上不同的性能层级。数据集、评估代码和所有模型输出可在https://github.com/rajveerpall/IndiaFinBench获得。
🔬 方法详解
问题定义:现有金融NLP基准数据集主要针对西方金融体系,缺乏对印度等非西方国家金融监管文本的覆盖。这限制了LLM在处理和理解印度金融领域相关任务的能力。因此,需要一个专门针对印度金融监管文本的评估基准,以推动该领域的研究和应用。
核心思路:构建一个高质量的、包含多种任务类型的问答数据集,覆盖印度证券交易委员会(SEBI)和印度储备银行(RBI)的监管文件。通过专家标注和严格的质量控制,确保数据集的准确性和可靠性。利用该数据集评估现有LLM在零样本条件下的表现,并分析不同任务类型的难点。
技术框架:IndiaFinBench数据集构建流程主要包括以下几个阶段:1) 从SEBI和RBI收集相关监管文件;2) 由领域专家设计问答对,涵盖监管解释、数值推理、矛盾检测和时间推理四种任务类型;3) 进行多轮标注和校对,确保问答对的质量;4) 通过模型辅助和人工评估,验证数据集的可靠性。评估流程包括:1) 选择多个LLM进行零样本评估;2) 计算模型在不同任务上的准确率;3) 进行统计显著性检验,分析模型之间的性能差异。
关键创新:IndiaFinBench是首个公开可用的、专门针对印度金融监管文本的LLM评估基准。它填补了现有金融NLP基准在非西方监管框架覆盖方面的空白,为评估和提升LLM在印度金融领域的应用能力提供了重要资源。该基准涵盖了多种任务类型,可以更全面地评估LLM的理解和推理能力。
关键设计:数据集包含406个问答对,涵盖监管解释(174项)、数值推理(92项)、矛盾检测(62项)和时间推理(78项)四种任务类型。注释质量通过模型辅助(矛盾检测kappa=0.918)和人工评估(kappa=0.611;总体一致性76.7%)进行验证。评估指标为准确率。采用Bootstrap方法(10,000次重采样)进行统计显著性检验。
📊 实验亮点
在零样本条件下,Gemini 2.5 Flash在IndiaFinBench上取得了最高的准确率(89.7%),Gemma 4 E4B的准确率为70.4%。所有模型都显著优于非专业人士基线(60.0%)。数值推理任务最具区分性,模型之间的差距为35.9个百分点。Bootstrap显著性检验揭示了三个统计上不同的性能层级。
🎯 应用场景
IndiaFinBench可用于评估和提升LLM在印度金融领域的应用能力,例如智能合规、风险管理、客户服务等。该基准可以帮助金融机构选择合适的LLM,并针对特定任务进行优化。此外,该数据集还可以促进金融NLP领域的研究,推动LLM在非西方金融市场的应用。
📄 摘要(原文)
We introduce IndiaFinBench, to our knowledge the first publicly available evaluation benchmark for assessing large language model (LLM) performance on Indian financial regulatory text. Existing financial NLP benchmarks draw exclusively from Western financial corpora (SEC filings, US earnings reports, and English-language financial news), leaving a significant gap in coverage of non-Western regulatory frameworks. IndiaFinBench addresses this gap with 406 expert-annotated question-answer pairs drawn from 192 documents sourced from the Securities and Exchange Board of India (SEBI) and the Reserve Bank of India (RBI), spanning four task types: regulatory interpretation (174 items), numerical reasoning (92 items), contradiction detection (62 items), and temporal reasoning (78 items). Annotation quality is validated through a model-based secondary pass (kappa=0.918 on contradiction detection) and a 60-item human inter-annotator agreement evaluation (kappa=0.611; 76.7% overall agreement). We evaluate twelve models under zero-shot conditions, with accuracy ranging from 70.4% (Gemma 4 E4B) to 89.7% (Gemini 2.5 Flash). All models substantially outperform a non-specialist human baseline of 60.0%. Numerical reasoning is the most discriminative task, with a 35.9 percentage-point spread across models. Bootstrap significance testing (10,000 resamples) reveals three statistically distinct performance tiers. The dataset, evaluation code, and all model outputs are available at https://github.com/rajveerpall/IndiaFinBench