DSC2025 -- ViHallu Challenge: Detecting Hallucination in Vietnamese LLMs

📄 arXiv: 2601.04711v1 📥 PDF

作者: Anh Thi-Hoang Nguyen, Khanh Quoc Tran, Tin Van Huynh, Phuoc Tan-Hoang Nguyen, Cam Tan Nguyen, Kiet Van Nguyen

分类: cs.CL, cs.AI

发布日期: 2026-01-08


💡 一句话要点

DSC2025 ViHallu Challenge:首个越南语LLM幻觉检测大规模共享任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 越南语 数据集 共享任务

📋 核心要点

  1. 现有LLM易产生幻觉,尤其是在越南语等低资源语言中缺乏有效评估和检测方法。
  2. 提出ViHallu Challenge及数据集,旨在系统评估和提升越南语LLM的幻觉检测能力。
  3. 实验结果表明,指令调优LLM结合结构化提示和集成策略能显著提升幻觉检测效果。

📝 摘要(中文)

大型语言模型(LLMs)在生产环境中的可靠性受到其产生幻觉的倾向的严重限制,即生成流畅、看似合理但与事实相悖或捏造信息的输出。虽然幻觉检测最近已成为以英语为中心的基准测试中的优先事项,但越南语等中低资源语言仍然缺乏标准化评估框架的充分覆盖。本文介绍了DSC2025 ViHallu Challenge,这是首个用于检测越南语LLM中幻觉的大规模共享任务。我们提出了ViHallu数据集,包含10,000个带注释的(上下文、提示、响应)三元组样本,系统地划分为三种幻觉类别:无幻觉、内在幻觉和外在幻觉。该数据集包含三种提示类型——事实性、噪声性和对抗性——以测试模型的鲁棒性。共有111个团队参加,表现最佳的系统实现了84.80%的宏平均F1分数,而基线编码器模型的得分仅为32.83%,这表明经过指令调优的LLM,结合结构化提示和集成策略,明显优于通用架构。然而,与完美性能的差距表明,幻觉检测仍然是一个具有挑战性的问题,特别是对于内在(基于矛盾的)幻觉。这项工作建立了一个严格的基准,并探索了各种检测方法,为未来研究越南语人工智能系统的可信度和可靠性奠定了基础。

🔬 方法详解

问题定义:论文旨在解决越南语大型语言模型(LLM)中幻觉检测的问题。现有方法主要集中在英语等高资源语言上,缺乏针对越南语的标准化评估框架和数据集,导致越南语LLM的幻觉问题难以有效识别和解决。现有方法在处理内在幻觉(即基于矛盾的幻觉)时表现不佳。

核心思路:论文的核心思路是通过构建一个大规模、高质量的越南语幻觉检测数据集(ViHallu)和一个共享任务(ViHallu Challenge),来促进对越南语LLM幻觉检测方法的研究和开发。通过提供多样化的提示类型(事实性、噪声性和对抗性),全面评估模型的鲁棒性。

技术框架:整体框架包括数据集构建、共享任务组织和基线模型评估三个主要部分。数据集构建涉及收集(上下文、提示、响应)三元组,并将其标注为无幻觉、内在幻觉和外在幻觉三种类型。共享任务组织包括制定评估指标(宏平均F1分数)和提供数据集给参赛队伍。基线模型评估使用encoder-only模型作为基线,并与参赛队伍提交的模型进行比较。

关键创新:该论文的关键创新在于构建了首个大规模越南语LLM幻觉检测数据集(ViHallu),并组织了相应的共享任务(ViHallu Challenge)。该数据集包含多种提示类型和幻觉类型,能够全面评估模型的幻觉检测能力。此外,论文还发现,指令调优的LLM结合结构化提示和集成策略能够显著提升幻觉检测效果。

关键设计:ViHallu数据集包含10,000个带注释的三元组样本,分为三种幻觉类别(无幻觉、内在幻觉和外在幻觉)和三种提示类型(事实性、噪声性和对抗性)。评估指标采用宏平均F1分数,以平衡不同幻觉类别的性能。基线模型采用encoder-only架构,参赛队伍可以自由选择模型架构和训练策略。论文没有详细说明具体的参数设置、损失函数或网络结构,这些由参赛队伍自行设计。

📊 实验亮点

ViHallu Challenge吸引了111个团队参与,最佳系统实现了84.80%的宏平均F1分数,相比于基线encoder-only模型的32.83%有显著提升。结果表明,指令调优的LLM结合结构化提示和集成策略能够有效提升幻觉检测性能。然而,与完美性能的差距表明,幻觉检测仍然是一个具有挑战性的问题,尤其是在内在幻觉方面。

🎯 应用场景

该研究成果可应用于提升越南语LLM在各种实际应用中的可靠性和可信度,例如智能客服、信息检索、内容生成等。通过降低LLM产生幻觉的风险,可以提高用户满意度和信任度,并减少错误信息传播的可能性。未来,该研究可以扩展到其他低资源语言,促进全球范围内LLM的可靠应用。

📄 摘要(原文)

The reliability of large language models (LLMs) in production environments remains significantly constrained by their propensity to generate hallucinations -- fluent, plausible-sounding outputs that contradict or fabricate information. While hallucination detection has recently emerged as a priority in English-centric benchmarks, low-to-medium resource languages such as Vietnamese remain inadequately covered by standardized evaluation frameworks. This paper introduces the DSC2025 ViHallu Challenge, the first large-scale shared task for detecting hallucinations in Vietnamese LLMs. We present the ViHallu dataset, comprising 10,000 annotated triplets of (context, prompt, response) samples systematically partitioned into three hallucination categories: no hallucination, intrinsic, and extrinsic hallucinations. The dataset incorporates three prompt types -- factual, noisy, and adversarial -- to stress-test model robustness. A total of 111 teams participated, with the best-performing system achieving a macro-F1 score of 84.80\%, compared to a baseline encoder-only score of 32.83\%, demonstrating that instruction-tuned LLMs with structured prompting and ensemble strategies substantially outperform generic architectures. However, the gap to perfect performance indicates that hallucination detection remains a challenging problem, particularly for intrinsic (contradiction-based) hallucinations. This work establishes a rigorous benchmark and explores a diverse range of detection methodologies, providing a foundation for future research into the trustworthiness and reliability of Vietnamese language AI systems.