CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics

📄 arXiv: 2512.21877v1 📥 PDF

作者: Vaibhav Devraj, Dhruv Kumar, Jagat Sesh Challa

分类: cs.CL, cs.AI

发布日期: 2025-12-26

备注: Under Review


💡 一句话要点

CricBench:一个用于评估LLM在板球分析中性能的多语言基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 大型语言模型 板球分析 多语言基准测试 领域特定任务

📋 核心要点

  1. 现有方法难以处理体育分析中特定领域的细微差别、复杂模式变化以及多语言需求,导致LLM在专业领域的性能不足。
  2. CricBench通过与领域专家合作,手动编写复杂查询,构建了英语和印地语的“黄金标准”数据集,用于评估LLM在板球数据上的Text-to-SQL能力。
  3. 实验结果表明,通用基准测试的高性能不能保证专业领域的成功,并且代码混合的印地语查询有时比英语查询产生更高的准确率。

📝 摘要(中文)

板球是全球第二受欢迎的运动,拥有超过25亿的庞大粉丝群体。爱好者和分析师经常寻求高级统计见解,例如长期历史表现趋势或复杂的球员比较,这些信息通常无法通过标准网络搜索获得。虽然大型语言模型(LLM)在Text-to-SQL任务中取得了显著进展,但它们处理特定领域细微差别、复杂模式变化以及体育分析固有的多语言需求的能力仍未得到充分探索。为了研究这种潜在的能力差距,我们提出了CricBench,这是一个全面的基准测试套件,用于评估LLM在专业板球数据上的表现。为了策划一个“黄金标准”数据集,我们与板球和SQL领域的专家合作,手动编写复杂的查询,确保逻辑正确性。认识到语言多样性,我们构建了英语和印地语的基准,建立了一个开放的框架,可以进一步扩展到其他区域语言。我们使用严格的评估协议评估了六个最先进的模型,包括GPT-4o、Claude 3.7 Sonnet和开源模型。我们的结果表明,在通用基准测试中的高性能并不能保证在专业领域中的成功。虽然开源推理模型DeepSeek R1取得了最先进的性能(50.6%),超过了Claude 3.7 Sonnet(47.7%)和GPT-4o(33.7%)等专有巨头,但从通用基准(BIRD)转移到CricBench时,其准确率仍然显著下降。此外,我们观察到,与英语相比,代码混合的印地语查询通常会产生同等或更高的准确率,这挑战了英语是专业SQL任务的最佳提示语言的假设。

🔬 方法详解

问题定义:论文旨在解决LLM在处理特定领域(板球)的复杂Text-to-SQL任务时表现不佳的问题。现有方法在处理领域知识、模式变化和多语言需求方面存在不足,导致LLM无法准确理解和执行针对板球数据的查询。

核心思路:论文的核心思路是构建一个高质量、多语言的基准测试数据集CricBench,用于评估和比较LLM在板球分析任务中的性能。通过与领域专家合作,确保数据集的逻辑正确性和专业性,从而更准确地反映LLM在实际应用中的能力。

技术框架:CricBench的构建流程主要包括以下几个阶段:1) 领域专家参与:与板球和SQL领域的专家合作,确保查询的逻辑正确性和专业性。2) 数据集构建:手动编写复杂的SQL查询,涵盖各种板球分析场景。3) 多语言支持:构建英语和印地语两种语言的基准,并支持扩展到其他语言。4) 模型评估:使用严格的评估协议,评估各种LLM在CricBench上的性能。

关键创新:CricBench的关键创新在于其专注于特定领域(板球)和多语言支持。与现有的通用Text-to-SQL基准测试相比,CricBench更能够反映LLM在实际应用中的能力,并促进LLM在体育分析领域的应用。此外,对代码混合印地语查询的分析,挑战了英语作为最优提示语言的假设。

关键设计:CricBench的数据集包含复杂的SQL查询,涵盖各种板球分析场景,例如球员比较、历史表现趋势分析等。评估指标采用严格的执行准确率,即只有当LLM生成的SQL查询能够正确执行并返回正确结果时,才被认为是正确的。论文还分析了不同LLM在不同类型的查询上的表现,以及不同语言的提示对性能的影响。

📊 实验亮点

实验结果表明,DeepSeek R1在CricBench上取得了50.6%的准确率,超过了Claude 3.7 Sonnet(47.7%)和GPT-4o(33.7%)等专有模型。然而,DeepSeek R1在CricBench上的准确率显著低于其在通用基准测试BIRD上的表现,表明通用基准测试的高性能不能保证在专业领域的成功。此外,代码混合的印地语查询有时比英语查询产生更高的准确率。

🎯 应用场景

CricBench的研究成果可应用于体育数据分析、智能客服、数据驱动的体育决策等领域。通过提高LLM在特定领域的Text-to-SQL能力,可以为体育爱好者、分析师和教练提供更准确、更深入的分析结果,从而提升用户体验和决策效率。未来,CricBench可以扩展到其他体育项目,构建更全面的体育数据分析平台。

📄 摘要(原文)

Cricket is the second most popular sport globally, commanding a massive following of over 2.5 billion fans globally. Enthusiasts and analysts frequently seek advanced statistical insights, such as long-term historical performance trends or complex player comparisons, that are often unavailable through standard web searches. While Large Language Models (LLMs) have advanced significantly in Text-to-SQL tasks, their capability to handle the domain-specific nuances, complex schema variations, and multilingual requirements inherent to sports analytics remains under-explored. To investigate this potential capability gap, we present CricBench, a comprehensive benchmark suite for evaluating LLMs on specialized cricket data. To curate a "Gold Standard" dataset, we collaborate with domain experts in cricket and SQL to manually author complex queries, ensuring logical correctness. Recognizing linguistic diversity, we construct the benchmark in both English and Hindi, establishing a framework that is open for further extension to other regional languages. We evaluate six state-of-the-art models, including GPT-4o, Claude 3.7 Sonnet, and open-source models, using a strict evaluation protocol. Our results reveal that high performance on general benchmarks does not guarantee success in specialized domains. While the open-weights reasoning model DeepSeek R1 achieves state-of-the-art performance (50.6%), surpassing proprietary giants like Claude 3.7 Sonnet (47.7%) and GPT-4o (33.7%), it still exhibits a significant accuracy drop when moving from general benchmarks (BIRD) to CricBench. Furthermore, we observe that code-mixed Hindi queries frequently yield parity or higher accuracy compared to English, challenging the assumption that English is the optimal prompt language for specialized SQL tasks.