BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali

📄 arXiv: 2605.31483v1 📥 PDF

作者: Shefayat E Shams Adib, Ahmed Alfey Sani, Ekramul Alam Esham, Ajwad Abrar, Ishmam Tashdeed, Md Taukir Azam Chowdhury

分类: cs.CL

发布日期: 2026-05-29

备注: Preprint. Under review


💡 一句话要点

BenHalluEval:孟加拉语大语言模型幻觉评估多任务框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉评估 孟加拉语 多任务学习 低资源语言 自然语言处理 基准测试

📋 核心要点

  1. 现有工作缺乏对孟加拉语大语言模型幻觉的系统评估,阻碍了该语言LLM的发展。
  2. BenHalluEval通过构建多任务幻觉评估框架,并提出BenHalluScore指标,实现了对孟加拉语LLM幻觉的细粒度评估。
  3. 实验结果表明,现有LLM在孟加拉语上存在显著的幻觉校准差异,且思维链提示不能持续改善幻觉辨别。

📝 摘要(中文)

本文提出了BenHalluEval,一个细粒度的孟加拉语大语言模型(LLM)幻觉评估框架,涵盖四个任务:生成式问答(GQA)、孟英混合代码问答、摘要和推理。使用GPT-5.4构建了12,000个幻觉候选样本,涵盖来自三个现有孟加拉语数据集的十二种特定于任务的幻觉类型。评估了七个LLM,涵盖面向推理、多语言和以孟加拉语为中心的类别,采用双轨协议,独立测量真实实例上的假阳性率(Track A)和幻觉候选样本上的幻觉检测率(Track B)。为了联合惩罚两种失败模式并防止统一响应偏差导致的分数膨胀,提出了BenHalluScore,一种双轨校准指标,其范围在模型和任务之间从7.72%到55.42%不等,揭示了幻觉校准的显着变化。应用于缓解策略的思维链提示,改变了响应分布,但并未持续改善幻觉辨别。BenHalluEval建立了第一个专门针对孟加拉语的幻觉基准,并强调了单轨和仅提示评估方法在低资源语言环境中的不足。数据集和代码可在https://anonymous.4open.science/r/BanglaHalluEval-EB77获得。

🔬 方法详解

问题定义:现有的大语言模型(LLM)在孟加拉语等低资源语言上的幻觉问题缺乏系统的评估和基准。这使得我们难以了解不同模型在孟加拉语上的幻觉程度,以及针对性地改进模型。现有的评估方法通常只关注单一任务或指标,无法全面反映模型的幻觉情况。

核心思路:本文的核心思路是构建一个多任务、细粒度的幻觉评估框架,并设计一个综合的评估指标。通过覆盖多种任务和幻觉类型,可以更全面地评估模型在孟加拉语上的幻觉情况。同时,提出的BenHalluScore指标可以联合惩罚假阳性和假阴性,避免单一指标带来的偏差。

技术框架:BenHalluEval框架包含以下几个主要组成部分:1) 数据集构建:基于现有的孟加拉语数据集,通过GPT-5.4生成包含12种幻觉类型的候选样本。2) 任务定义:涵盖生成式问答(GQA)、孟英混合代码问答、摘要和推理四个任务。3) 模型评估:采用双轨协议,分别在真实数据和幻觉数据上评估模型的表现。4) 指标计算:提出BenHalluScore指标,综合评估模型的幻觉检测能力和准确性。

关键创新:主要的创新点在于:1) 首次针对孟加拉语LLM的幻觉问题构建了专门的评估基准。2) 提出了一个细粒度的幻觉类型分类体系,覆盖了多种常见的幻觉形式。3) 设计了BenHalluScore指标,可以更全面地评估模型的幻觉情况,避免单一指标的局限性。

关键设计:BenHalluScore指标的设计是关键。它基于双轨评估结果,同时考虑了模型在真实数据上的假阳性率(Track A)和在幻觉数据上的幻觉检测率(Track B)。具体计算公式未知,但其目标是平衡两种错误,并防止模型通过统一输出而获得虚高的分数。此外,论文还研究了思维链提示作为一种缓解幻觉的策略,但发现其效果并不稳定。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,现有LLM在孟加拉语上存在显著的幻觉校准差异,BenHalluScore指标在不同模型和任务上的范围从7.72%到55.42%不等。此外,思维链提示作为一种缓解策略,虽然改变了响应分布,但并未持续改善幻觉辨别能力。这些发现突出了孟加拉语LLM幻觉问题的严重性,以及现有缓解策略的局限性。

🎯 应用场景

该研究成果可应用于评估和改进孟加拉语大语言模型的可靠性和安全性。通过BenHalluEval,开发者可以更准确地了解模型在孟加拉语上的幻觉情况,从而有针对性地进行优化。这有助于提升孟加拉语LLM在实际应用中的表现,例如智能客服、信息检索和内容生成等领域。

📄 摘要(原文)

Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large language models (LLMs) for Bengali. We introduce BenHalluEval, a fine-grained hallucination evaluation framework for Bengali covering four tasks: Generative Question Answering (GQA), Bangla-English Code-Mixed QA, Summarization, and Reasoning. We construct 12,000 hallucinated candidates using GPT-5.4 across twelve task-specific hallucination types, drawn from three existing Bengali datasets, and evaluate seven LLMs spanning reasoning-oriented, multilingual, and Bengali-centric categories under a dual-track protocol that independently measures false-positive rate on ground-truth instances (Track A) and hallucination detection rate on hallucinated candidates (Track B). To jointly penalise both failure modes and prevent inflated scores from uniform response bias, we propose BenHalluScore, a dual-track calibration metric that ranges from 7.72% to 55.42% across models and tasks, revealing substantial variation in hallucination calibration. Chain-of-thought prompting, applied as a mitigation strategy, shifts response distributions without consistently improving hallucination discrimination. BenHalluEval establishes the first dedicated hallucination benchmark for Bengali and highlights the inadequacy of single-track and prompting-only evaluation approaches for low-resource language settings. The dataset and code are available at https://anonymous.4open.science/r/BanglaHalluEval-EB77.