DSC2025 -- ViHallu Challenge: Detecting Hallucination in Vietnamese LLMs

作者: Anh Thi-Hoang Nguyen, Khanh Quoc Tran, Tin Van Huynh, Phuoc Tan-Hoang Nguyen, Cam Tan Nguyen, Kiet Van Nguyen

分类: cs.CL, cs.AI

发布日期: 2026-01-08

💡 一句话要点

DSC2025 ViHallu Challenge：首个越南语LLM幻觉检测大规模共享任务。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 越南语 数据集 共享任务

📋 核心要点

现有LLM易产生幻觉，尤其是在越南语等低资源语言中缺乏有效评估和检测方法。
提出ViHallu Challenge及数据集，旨在系统评估和提升越南语LLM的幻觉检测能力。
实验结果表明，指令调优LLM结合结构化提示和集成策略能显著提升幻觉检测效果。

📝 摘要（中文）

大型语言模型（LLMs）在生产环境中的可靠性受到其产生幻觉的倾向的严重限制，即生成流畅、看似合理但与事实相悖或捏造信息的输出。虽然幻觉检测最近已成为以英语为中心的基准测试中的优先事项，但越南语等中低资源语言仍然缺乏标准化评估框架的充分覆盖。本文介绍了DSC2025 ViHallu Challenge，这是首个用于检测越南语LLM中幻觉的大规模共享任务。我们提出了ViHallu数据集，包含10,000个带注释的（上下文、提示、响应）三元组样本，系统地划分为三种幻觉类别：无幻觉、内在幻觉和外在幻觉。该数据集包含三种提示类型——事实性、噪声性和对抗性——以测试模型的鲁棒性。共有111个团队参加，表现最佳的系统实现了84.80%的宏平均F1分数，而基线编码器模型的得分仅为32.83%，这表明经过指令调优的LLM，结合结构化提示和集成策略，明显优于通用架构。然而，与完美性能的差距表明，幻觉检测仍然是一个具有挑战性的问题，特别是对于内在（基于矛盾的）幻觉。这项工作建立了一个严格的基准，并探索了各种检测方法，为未来研究越南语人工智能系统的可信度和可靠性奠定了基础。

🔬 方法详解

问题定义：论文旨在解决越南语大型语言模型（LLM）中幻觉检测的问题。现有方法主要集中在英语等高资源语言上，缺乏针对越南语的标准化评估框架和数据集，导致越南语LLM的幻觉问题难以有效识别和解决。现有方法在处理内在幻觉（即基于矛盾的幻觉）时表现不佳。

核心思路：论文的核心思路是通过构建一个大规模、高质量的越南语幻觉检测数据集（ViHallu）和一个共享任务（ViHallu Challenge），来促进对越南语LLM幻觉检测方法的研究和开发。通过提供多样化的提示类型（事实性、噪声性和对抗性），全面评估模型的鲁棒性。

技术框架：整体框架包括数据集构建、共享任务组织和基线模型评估三个主要部分。数据集构建涉及收集（上下文、提示、响应）三元组，并将其标注为无幻觉、内在幻觉和外在幻觉三种类型。共享任务组织包括制定评估指标（宏平均F1分数）和提供数据集给参赛队伍。基线模型评估使用encoder-only模型作为基线，并与参赛队伍提交的模型进行比较。

关键创新：该论文的关键创新在于构建了首个大规模越南语LLM幻觉检测数据集（ViHallu），并组织了相应的共享任务（ViHallu Challenge）。该数据集包含多种提示类型和幻觉类型，能够全面评估模型的幻觉检测能力。此外，论文还发现，指令调优的LLM结合结构化提示和集成策略能够显著提升幻觉检测效果。

关键设计：ViHallu数据集包含10,000个带注释的三元组样本，分为三种幻觉类别（无幻觉、内在幻觉和外在幻觉）和三种提示类型（事实性、噪声性和对抗性）。评估指标采用宏平均F1分数，以平衡不同幻觉类别的性能。基线模型采用encoder-only架构，参赛队伍可以自由选择模型架构和训练策略。论文没有详细说明具体的参数设置、损失函数或网络结构，这些由参赛队伍自行设计。

📊 实验亮点

ViHallu Challenge吸引了111个团队参与，最佳系统实现了84.80%的宏平均F1分数，相比于基线encoder-only模型的32.83%有显著提升。结果表明，指令调优的LLM结合结构化提示和集成策略能够有效提升幻觉检测性能。然而，与完美性能的差距表明，幻觉检测仍然是一个具有挑战性的问题，尤其是在内在幻觉方面。

🎯 应用场景

该研究成果可应用于提升越南语LLM在各种实际应用中的可靠性和可信度，例如智能客服、信息检索、内容生成等。通过降低LLM产生幻觉的风险，可以提高用户满意度和信任度，并减少错误信息传播的可能性。未来，该研究可以扩展到其他低资源语言，促进全球范围内LLM的可靠应用。

📄 摘要（原文）

The reliability of large language models (LLMs) in production environments remains significantly constrained by their propensity to generate hallucinations -- fluent, plausible-sounding outputs that contradict or fabricate information. While hallucination detection has recently emerged as a priority in English-centric benchmarks, low-to-medium resource languages such as Vietnamese remain inadequately covered by standardized evaluation frameworks. This paper introduces the DSC2025 ViHallu Challenge, the first large-scale shared task for detecting hallucinations in Vietnamese LLMs. We present the ViHallu dataset, comprising 10,000 annotated triplets of (context, prompt, response) samples systematically partitioned into three hallucination categories: no hallucination, intrinsic, and extrinsic hallucinations. The dataset incorporates three prompt types -- factual, noisy, and adversarial -- to stress-test model robustness. A total of 111 teams participated, with the best-performing system achieving a macro-F1 score of 84.80\%, compared to a baseline encoder-only score of 32.83\%, demonstrating that instruction-tuned LLMs with structured prompting and ensemble strategies substantially outperform generic architectures. However, the gap to perfect performance indicates that hallucination detection remains a challenging problem, particularly for intrinsic (contradiction-based) hallucinations. This work establishes a rigorous benchmark and explores a diverse range of detection methodologies, providing a foundation for future research into the trustworthiness and reliability of Vietnamese language AI systems.

DSC2025 -- ViHallu Challenge: Detecting Hallucination in Vietnamese LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理