BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

作者: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan

分类: cs.CL, cs.AI

发布日期: 2025-10-29 (更新: 2025-10-30)

💡 一句话要点

提出BhashaBench V1，用于评估LLM在印度特定领域的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 印度语言模型 领域特定基准 双语评估 农业AI 法律AI 金融AI 阿育吠陀 低资源语言

📋 核心要点

现有LLM基准测试缺乏对印度特定领域和文化的针对性评估，无法准确反映模型在印度的实际应用能力。
BhashaBench V1构建了一个多任务、双语的基准测试，涵盖农业、法律、金融和阿育吠陀等关键印度知识领域。
实验结果表明，现有LLM在不同领域和语言上的性能存在显著差距，尤其是在低资源领域表现较差。

📝 摘要（中文）

大型语言模型（LLM）的快速发展，加剧了对特定领域和文化评估的需求。现有的基准测试在很大程度上以英语为中心，并且与领域无关，限制了它们在以印度为中心的环境中的适用性。为了解决这一差距，我们推出了BhashaBench V1，这是第一个特定领域、多任务、双语基准测试，专注于关键的印度知识体系。BhashaBench V1包含74,166个精心策划的问答对，其中52,494个为英语，21,672个为印地语，来源于真实的政府和特定领域的考试。它涵盖四个主要领域：农业、法律、金融和阿育吠陀，包含90多个子领域，覆盖500多个主题，从而能够进行细粒度的评估。对29个以上LLM的评估显示出显著的领域和语言特定性能差距，在低资源领域尤其存在巨大差异。例如，GPT-4o在法律领域的总体准确率达到76.49%，但在阿育吠陀领域仅为59.74%。在所有领域，模型在英语内容上的表现始终优于印地语内容。子领域级别的分析表明，网络法、国际金融等领域的表现相对较好，而Panchakarma、种子科学和人权等领域仍然明显较弱。BhashaBench V1提供了一个全面的数据集，用于评估大型语言模型在印度不同知识领域的表现。它可以评估模型将领域特定知识与双语理解相结合的能力。所有代码、基准和资源都是公开可用的，以支持开放研究。

🔬 方法详解

问题定义：现有的大型语言模型评估基准主要集中在通用领域和英语语言上，缺乏对印度特定领域知识和印地语等本地语言的覆盖。这导致无法准确评估这些模型在印度实际应用场景中的性能，尤其是在农业、法律、金融和阿育吠陀等关键领域。现有方法的痛点在于无法有效衡量模型对印度特定知识的理解和应用能力。

核心思路：BhashaBench V1的核心思路是构建一个领域特定、多任务、双语的基准测试数据集，该数据集包含来自印度政府和领域特定考试的真实问答对，涵盖农业、法律、金融和阿育吠陀四个主要领域。通过评估模型在这些领域中的表现，可以更准确地了解模型对印度特定知识的掌握程度和双语理解能力。

技术框架：BhashaBench V1的技术框架主要包括以下几个阶段：1) 数据收集：从印度政府和领域特定考试中收集真实的问答对；2) 数据清洗和标注：对收集到的数据进行清洗和标注，确保数据的质量和准确性；3) 数据集构建：将清洗和标注后的数据构建成一个多任务、双语的基准测试数据集；4) 模型评估：使用BhashaBench V1评估现有大型语言模型在不同领域和语言上的性能。

关键创新：BhashaBench V1最重要的技术创新点在于其领域特定性和双语性。与现有的通用领域基准测试不同，BhashaBench V1专注于评估模型在印度特定领域的知识和理解能力。此外，BhashaBench V1同时包含英语和印地语两种语言的数据，可以评估模型的双语理解能力。

关键设计：BhashaBench V1的关键设计包括：1) 领域选择：选择农业、法律、金融和阿育吠陀四个关键领域，这些领域对印度社会和经济发展具有重要意义；2) 数据来源：从印度政府和领域特定考试中收集数据，确保数据的真实性和权威性；3) 数据规模：包含74,166个问答对，其中52,494个为英语，21,672个为印地语，保证了数据集的规模和多样性；4) 评估指标：使用准确率等指标评估模型在不同领域和语言上的性能。

🖼️ 关键图片

📊 实验亮点

对29个以上LLM的评估显示，GPT-4o在法律领域的总体准确率达到76.49%，但在阿育吠陀领域仅为59.74%。模型在英语内容上的表现始终优于印地语内容。子领域分析表明，网络法、国际金融等领域表现相对较好，而Panchakarma、种子科学和人权等领域仍然明显较弱。这些结果突显了现有LLM在印度特定领域和语言上的性能差距。

🎯 应用场景

BhashaBench V1可用于评估和改进大型语言模型在印度特定领域的应用，例如智能农业咨询、法律文本分析、金融风险评估和阿育吠陀健康管理。该基准测试有助于开发更适应印度文化和语言环境的AI系统，提升模型在实际应用中的可靠性和有效性，并促进印度本地AI技术的发展。

📄 摘要（原文）

The rapid advancement of large language models(LLMs) has intensified the need for domain and culture specific evaluation. Existing benchmarks are largely Anglocentric and domain-agnostic, limiting their applicability to India-centric contexts. To address this gap, we introduce BhashaBench V1, the first domain-specific, multi-task, bilingual benchmark focusing on critical Indic knowledge systems. BhashaBench V1 contains 74,166 meticulously curated question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from authentic government and domain-specific exams. It spans four major domains: Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs reveals significant domain and language specific performance gaps, with especially large disparities in low-resource domains. For instance, GPT-4o achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models consistently perform better on English content compared to Hindi across all domains. Subdomain-level analysis shows that areas such as Cyber Law, International Finance perform relatively well, while Panchakarma, Seed Science, and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive dataset for evaluating large language models across India's diverse knowledge domains. It enables assessment of models' ability to integrate domain-specific knowledge with bilingual understanding. All code, benchmarks, and resources are publicly available to support open research.

BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理