The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM's Internal States
作者: Fabian Ridder, Malte Schilling
分类: cs.CL, cs.LG
发布日期: 2024-12-22 (更新: 2025-03-25)
备注: 19 pages, 3 figures
💡 一句话要点
提出HalluRAG数据集,利用LLM内部状态检测RAG应用中的闭域幻觉
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉检测 RAG应用 闭域幻觉 内部状态 数据集 分类器训练 时间截断
📋 核心要点
- 现有方法难以确定LLM幻觉的根本原因,因为LLM的知识来源和演变过程不透明。
- 论文提出HalluRAG数据集,通过时间截断确保LLM未在训练时接触相关信息,从而专注于闭域幻觉的检测。
- 实验表明,基于HalluRAG训练的MLP分类器,利用LLM内部状态,能够有效检测幻觉,最高准确率达75%。
📝 摘要(中文)
检测大型语言模型(LLM)中的幻觉对于提高其可靠性和可信度至关重要。现有研究主要关注LLM生成内容与训练数据中信息的偏差。然而,LLM参数知识的不透明性使得理解生成文本为何缺乏依据变得困难:LLM可能没有从庞大且通常无法访问的数据集中获取必要的知识,或者信息可能在进一步的训练中被更改或矛盾。本研究侧重于涉及训练中未使用信息的幻觉,通过使用时间截断来确保信息在截止日期之后出现。通过使用各种LLM的不同内部状态在句子级别检测这些幻觉,我们提出了HalluRAG,一个旨在训练幻觉分类器的数据集。根据模型和量化方式,在HalluRAG上训练的MLP检测幻觉的测试准确率高达75%,其中Mistral-7B-Instruct-v0.1实现了最高的测试准确率。结果表明,IAV检测幻觉的效果与CEV一样有效,并且可回答和不可回答的提示以不同的方式编码,因为这些类别的单独分类器提高了准确性。然而,HalluRAG显示出一定的泛化局限性,这表明需要更多样化的幻觉数据集。
🔬 方法详解
问题定义:论文旨在解决RAG(Retrieval-Augmented Generation)应用中,LLM产生的闭域幻觉检测问题。现有方法难以区分LLM是因为缺乏训练数据,还是因为训练数据被修改而产生幻觉。因此,需要一种方法来专门检测那些LLM在训练时未接触过的信息所导致的幻觉。
核心思路:核心思路是通过创建一个数据集,其中包含LLM在训练截止日期之后才出现的信息。这样,如果LLM生成了与这些信息相关的错误或虚假内容,就可以确定这是由于LLM的内部知识缺陷或推理错误导致的幻觉,而不是训练数据的问题。通过分析LLM的内部状态,训练分类器来识别这些幻觉。
技术框架:整体框架包括以下几个步骤:1) 确定一个时间截止日期,确保LLM的训练数据不包含此日期之后的信息。2) 构建包含此日期之后出现的信息的提示(prompts)。3) 使用LLM生成对这些提示的回答。4) 人工标注生成的回答是否包含幻觉。5) 提取LLM在生成回答过程中的内部状态(如CEV和IAV)。6) 使用标注数据和提取的内部状态训练分类器,用于检测幻觉。
关键创新:最重要的创新点在于数据集的构建方式,通过时间截断来明确LLM是否接触过相关信息,从而专注于闭域幻觉的检测。此外,论文还探索了利用LLM的内部状态(CEV和IAV)作为特征来训练幻觉检测器,这为理解LLM的内部运作机制提供了新的视角。
关键设计:论文使用了Mistral-7B-Instruct-v0.1等LLM,并探索了不同的量化方法对结果的影响。分类器采用MLP结构,输入是LLM的内部状态。论文还针对可回答和不可回答的提示分别训练了分类器,以提高检测准确率。损失函数和具体的网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于HalluRAG数据集训练的MLP分类器能够有效检测LLM的幻觉,最高测试准确率达到75%(使用Mistral-7B-Instruct-v0.1模型)。研究还发现,利用LLM的内部状态(IAV)检测幻觉的效果与使用CEV相当。此外,针对可回答和不可回答的提示分别训练分类器可以提高检测准确率。但HalluRAG数据集的泛化能力有限,表明需要更多样化的幻觉数据集。
🎯 应用场景
该研究成果可应用于提高RAG系统的可靠性和可信度,尤其是在需要处理时效性强的信息的场景下,例如新闻摘要、金融分析等。通过检测和纠正LLM的幻觉,可以避免生成错误或误导性的内容,从而提升用户体验和决策质量。未来,该方法可以扩展到其他类型的LLM应用中,并与其他幻觉检测技术相结合,构建更完善的幻觉防御体系。
📄 摘要(原文)
Detecting hallucinations in large language models (LLMs) is critical for enhancing their reliability and trustworthiness. Most research focuses on hallucinations as deviations from information seen during training. However, the opaque nature of an LLM's parametric knowledge complicates the understanding of why generated texts appear ungrounded: The LLM might not have picked up the necessary knowledge from large and often inaccessible datasets, or the information might have been changed or contradicted during further training. Our focus is on hallucinations involving information not used in training, which we determine by using recency to ensure the information emerged after a cut-off date. This study investigates these hallucinations by detecting them at sentence level using different internal states of various LLMs. We present HalluRAG, a dataset designed to train classifiers on these hallucinations. Depending on the model and quantization, MLPs trained on HalluRAG detect hallucinations with test accuracies ranging up to 75 %, with Mistral-7B-Instruct-v0.1 achieving the highest test accuracies. Our results show that IAVs detect hallucinations as effectively as CEVs and reveal that answerable and unanswerable prompts are encoded differently as separate classifiers for these categories improved accuracy. However, HalluRAG showed some limited generalizability, advocating for more diversity in datasets on hallucinations.