ShED-HD: A Shannon Entropy Distribution Framework for Lightweight Hallucination Detection on Edge Devices

作者: Aneesh Vathul, Daniel Lee, Sheryl Chen, Arthi Tasmia

分类: cs.CL, cs.AI

发布日期: 2025-03-23 (更新: 2025-06-14)

💡 一句话要点

提出ShED-HD框架，在边缘设备上高效检测大语言模型幻觉

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 幻觉检测 边缘设备 香农熵 BiLSTM 注意力机制

📋 核心要点

现有幻觉检测方法在边缘设备等资源受限环境中，面临计算成本高或准确率不足的挑战。
ShED-HD通过轻量级BiLSTM架构分析序列级熵模式，高效检测输出序列中的不确定性，保持上下文感知。
在三个数据集上，ShED-HD在分布外设置中显著优于其他高效方法，分布内设置中性能相当。

📝 摘要（中文）

大型语言模型(LLMs)在各种NLP任务中表现出令人印象深刻的能力，但它们产生幻觉（听起来合理但实际上不正确的内容）的倾向，在高风险领域构成了严峻的挑战。现有的幻觉检测方法要么承担多次推理的计算成本，要么牺牲准确性以提高单次推理方法的效率，这两种方法在边缘设备等资源受限的环境中都不理想。我们提出了香农熵分布幻觉检测器(ShED-HD)，这是一种新颖的幻觉检测框架，它通过使用带有单头注意力的轻量级BiLSTM架构对序列级熵模式进行分类来弥合这一差距。与先前的方法相比，ShED-HD有效地检测整个输出序列中独特的不确定性模式，从而保持上下文感知。通过对三个数据集（BioASQ、TriviaQA和Jeopardy Questions）的深入评估，我们表明ShED-HD在分布外设置中显著优于其他计算效率高的方法，同时在分布内设置中实现了可比的性能。ShED-HD有助于低成本、准确和可推广的幻觉检测，从而提高了LLM在可信赖的AI功能至关重要的资源受限环境中生成的内容的可信度。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在边缘设备等资源受限环境中产生幻觉的问题。现有方法要么计算成本过高，需要多次推理，要么为了效率牺牲准确性，无法有效检测幻觉。

核心思路：论文的核心思路是利用香农熵分布来捕捉LLM生成文本序列中的不确定性模式。通过分析整个输出序列的熵值分布，ShED-HD能够识别出与幻觉相关的独特模式，从而实现高效且准确的幻觉检测。这种方法避免了对事实的直接验证，而是侧重于模型输出的不确定性程度。

技术框架：ShED-HD框架主要包含以下几个阶段：1) 对LLM生成的文本序列进行分词；2) 计算每个token的香农熵，得到序列的熵分布；3) 使用轻量级的BiLSTM网络，结合单头注意力机制，对熵分布进行建模和分类；4) 输出序列是否包含幻觉的预测结果。

关键创新：ShED-HD的关键创新在于利用序列级的熵分布模式进行幻觉检测，而不是依赖于对单个token或短语的分析。这种方法能够更好地捕捉上下文信息，并识别出与幻觉相关的复杂不确定性模式。此外，使用轻量级的BiLSTM网络保证了在资源受限设备上的高效运行。

关键设计：ShED-HD使用的BiLSTM网络结构相对简单，旨在减少计算量。单头注意力机制用于关注熵分布中最重要的部分。损失函数采用标准的二元交叉熵损失，用于训练模型区分包含幻觉和不包含幻觉的序列。具体的参数设置（如BiLSTM的层数、隐藏层大小等）需要根据具体数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ShED-HD在BioASQ、TriviaQA和Jeopardy Questions三个数据集上均取得了良好的性能。在分布外(out-of-distribution)设置中，ShED-HD显著优于其他计算效率高的方法，表明其具有更好的泛化能力。在分布内(in-distribution)设置中，ShED-HD的性能与其他方法相当，同时保持了较低的计算成本。

🎯 应用场景

ShED-HD可应用于各种资源受限的边缘设备，例如移动设备、物联网设备等，用于提高LLM生成内容的可靠性。在医疗、金融等高风险领域，可以有效降低因幻觉导致的错误信息传播风险，提升AI系统的可信度。该研究还有助于推动可信赖AI技术在边缘计算环境中的应用。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated impressive capabilities on a broad array of NLP tasks, but their tendency to produce hallucinations$\unicode{x2013}$plausible-sounding but factually incorrect content$\unicode{x2013}$poses severe challenges in high-stakes domains. Existing hallucination detection methods either bear the computational cost of multiple inference passes or sacrifice accuracy for efficiency with single-pass approaches, neither of which is ideal in resource-constrained environments such as edge devices. We propose the Shannon Entropy Distribution Hallucination Detector (ShED-HD), a novel hallucination detection framework that bridges this gap by classifying sequence-level entropy patterns using a lightweight BiLSTM architecture with single-headed attention. In contrast to prior approaches, ShED-HD efficiently detects distinctive uncertainty patterns across entire output sequences, preserving contextual awareness. Through in-depth evaluation on three datasets (BioASQ, TriviaQA, and Jeopardy Questions), we show that ShED-HD significantly outperforms other computationally efficient approaches in the out-of-distribution setting, while achieving comparable performance in the in-distribution setting. ShED-HD facilitates hallucination detection that is low-cost, accurate, and generalizable, improving the credibility of content generated by LLMs in resource-constrained environments where trustworthy AI functionality is crucial.

ShED-HD: A Shannon Entropy Distribution Framework for Lightweight Hallucination Detection on Edge Devices

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理