BHRAM-IL: A Benchmark for Hallucination Recognition and Assessment in Multiple Indian Languages

📄 arXiv: 2512.01852v1 📥 PDF

作者: Hrishikesh Terdalkar, Kirtan Bhojani, Aryan Dongare, Omm Aditya Behera

分类: cs.CL, cs.AI, cs.ET

发布日期: 2025-12-01

备注: Accepted at BHASHA Workshop @ IJCNLP/AACL 2025

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

BHRAM-IL:多印度语言LLM幻觉识别与评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 幻觉检测 印度语言 评估基准 自然语言处理

📋 核心要点

  1. 现有方法在英语幻觉检测方面取得了进展,但对资源不足的印度语言缺乏有效评估。
  2. BHRAM-IL基准旨在通过提供多语言数据集和评估指标,促进印度语言LLM的幻觉识别。
  3. 实验结果表明,现有LLM在印度语言上存在显著的幻觉问题,凸显了BHRAM-IL的价值。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于多语言场景,但经常产生看似合理但实际上不正确或具有误导性的输出,即幻觉。虽然幻觉检测在英语中已被广泛研究,但在资源匮乏的印度语言中仍未得到充分探索。本文提出了BHRAM-IL,一个用于多印度语言(包括印地语、古吉拉特语、马拉地语、奥迪亚语以及英语)幻觉识别和评估的基准。该基准包含36,047个精心策划的问题,涵盖事实、数值、推理和语言任务等九个类别。我们在包含10,265个问题的基准子集上评估了14个最先进的多语言LLM,使用归一化到(0,1)范围的特定类别指标,分析了跨语言和事实幻觉在语言、模型、规模、类别和领域之间的差异。所有类别和模型的总体平均得分为0.23,语言校正后的模糊得分为0.385,证明了BHRAM-IL在以幻觉为中心的评估中的有效性。数据集以及生成和评估代码可在GitHub和HuggingFace上获取,以支持未来在多语言幻觉检测和缓解方面的研究。

🔬 方法详解

问题定义:论文旨在解决多语言大型语言模型在印度语言中产生幻觉的问题。现有方法主要集中在英语上,缺乏针对印度语言的专门评估基准,导致无法有效识别和评估这些语言中的幻觉现象。

核心思路:论文的核心思路是构建一个包含多种印度语言(印地语、古吉拉特语、马拉地语、奥迪亚语)以及英语的综合性基准数据集,并设计相应的评估指标,从而能够系统地评估LLM在这些语言中的幻觉程度。通过对不同类别的问题进行评估,可以更全面地了解LLM在不同任务上的幻觉表现。

技术框架:BHRAM-IL基准包含以下几个主要组成部分:1) 多语言数据集:包含36,047个问题,涵盖事实、数值、推理和语言任务等九个类别。2) 评估指标:针对每个类别设计了特定的评估指标,并将指标归一化到(0,1)范围,以便进行跨类别和跨模型的比较。3) 模型评估:使用14个最先进的多语言LLM在基准数据集上进行评估,并分析不同语言、模型、规模、类别和领域之间的幻觉差异。

关键创新:该论文的关键创新在于构建了一个专门针对多印度语言的幻觉评估基准,填补了该领域的研究空白。与现有方法相比,BHRAM-IL更加关注资源匮乏的印度语言,并提供了更全面的评估指标和数据集,从而能够更准确地识别和评估这些语言中的幻觉现象。

关键设计:数据集的构建过程中,作者精心策划了各种类型的问题,以覆盖不同的语言现象和任务。评估指标的设计考虑了不同类别的特点,并进行了归一化处理,以便进行公平的比较。此外,作者还提供了生成和评估代码,方便其他研究人员使用和扩展该基准。

📊 实验亮点

在BHRAM-IL基准的子集上,对14个最先进的多语言LLM进行了评估。结果显示,所有类别和模型的总体平均得分为0.23,语言校正后的模糊得分为0.385。这些结果表明,现有LLM在印度语言上存在显著的幻觉问题,同时也证明了BHRAM-IL基准在幻觉评估方面的有效性。

🎯 应用场景

该研究成果可应用于提升多语言LLM在印度语言环境下的可靠性和准确性,例如在印度的客户服务、教育、信息检索等领域。通过使用BHRAM-IL基准评估和改进LLM,可以减少幻觉的产生,提高用户体验,并促进印度语言技术的普及和发展。未来,该基准可以扩展到更多印度语言,并与其他评估方法相结合,以更全面地评估LLM的性能。

📄 摘要(原文)

Large language models (LLMs) are increasingly deployed in multilingual applications but often generate plausible yet incorrect or misleading outputs, known as hallucinations. While hallucination detection has been studied extensively in English, under-resourced Indian languages remain largely unexplored. We present BHRAM-IL, a benchmark for hallucination recognition and assessment in multiple Indian languages, covering Hindi, Gujarati, Marathi, Odia, along with English. The benchmark comprises 36,047 curated questions across nine categories spanning factual, numerical, reasoning, and linguistic tasks. We evaluate 14 state-of-the-art multilingual LLMs on a benchmark subset of 10,265 questions, analyzing cross-lingual and factual hallucinations across languages, models, scales, categories, and domains using category-specific metrics normalized to (0,1) range. Aggregation over all categories and models yields a primary score of 0.23 and a language-corrected fuzzy score of 0.385, demonstrating the usefulness of BHRAM-IL for hallucination-focused evaluation. The dataset, and the code for generation and evaluation are available on GitHub (https://github.com/sambhashana/BHRAM-IL/) and HuggingFace (https://huggingface.co/datasets/sambhashana/BHRAM-IL/) to support future research in multilingual hallucination detection and mitigation.