Confidence-Aware Sub-Structure Beam Search (CABS): Mitigating Hallucination in Structured Data Generation with Large Language Models

作者: Chengwei Wei, Kee Kiat Koo, Amir Tavanaei, Karim Bouyarmane

分类: cs.CL, cs.LG

发布日期: 2024-05-30

💡 一句话要点

提出置信度感知子结构束搜索(CABS)，缓解LLM在结构化数据生成中的幻觉问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 结构化数据生成 幻觉缓解 置信度估计 束搜索

📋 核心要点

现有LLM在结构化数据生成中存在幻觉问题，缺乏对子结构级别置信度的有效估计。
提出置信度感知子结构束搜索(CABS)，利用置信度网络估计子结构级别置信度，并迭代优化提示。
实验表明，CABS在产品属性生成任务中，显著优于传统token级别束搜索，召回率提升16.7%。

📝 摘要（中文）

大型语言模型(LLM)促进了结构化数据的生成，并广泛应用于表格数据、文档数据库、产品目录等领域。然而，由于不正确的引用或幻觉，生成结果的真实性仍然令人担忧，因此需要引入某种形式的模型置信度来缓解这个问题。现有的LLM生成置信度估计方法主要集中在单个token级别或整个输出序列级别，限制了它们在结构化数据生成中的应用，因为结构化数据生成包含子结构级别上独立和相关条目的复杂混合。本文首先研究了生成子结构级别数据的置信度估计方法。我们引入了应用于LLM Transformer隐藏状态的置信度网络的概念，作为比传统token条件概率更具针对性的估计。此外，我们提出了一种新的解码方法——置信度感知子结构束搜索(CABS)，它在结构化数据生成中以子结构级别运行。CABS通过考虑来自置信度网络的每个子结构级别数据的置信度分数，并迭代地细化提示，从而提高结构化数据生成的保真度。结果表明，在产品属性生成问题上，CABS的平均召回率在90%精度下优于传统的token级别束搜索16.7%。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在生成结构化数据时出现的幻觉问题，即生成不真实或不准确的信息。现有方法主要关注token级别或整个序列的置信度估计，无法有效处理结构化数据中子结构之间的复杂依赖关系，导致生成质量下降。

核心思路：论文的核心思路是引入子结构级别的置信度估计，并将其融入到解码过程中。通过置信度网络预测每个子结构的置信度，并利用这些置信度指导束搜索，从而选择更可靠的子结构组合，减少幻觉的产生。

技术框架：CABS包含以下主要模块：1) LLM：用于生成结构化数据的基本模型。2) 置信度网络：基于LLM的隐藏状态，预测每个子结构的置信度得分。3) 子结构束搜索：一种改进的束搜索算法，在生成过程中考虑子结构的置信度，选择置信度高的子结构进行扩展。4) 迭代提示优化：根据已生成的子结构，迭代优化提示，以提高后续生成的质量。

关键创新：论文的关键创新在于：1) 提出了子结构级别的置信度估计方法，更精细地评估生成质量。2) 设计了置信度网络，能够有效地预测子结构的置信度。3) 提出了置信度感知的束搜索算法，将置信度信息融入到解码过程中，提高了生成结果的保真度。

关键设计：置信度网络的设计是关键。它以LLM的Transformer层的隐藏状态作为输入，通过多层感知机(MLP)预测子结构的置信度得分。损失函数可以选择交叉熵损失或均方误差损失，具体取决于置信度得分的表示形式（概率或回归值）。束搜索算法的关键在于如何平衡置信度和模型概率，可以使用加权平均或更复杂的融合策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CABS在产品属性生成任务中显著优于传统的token级别束搜索。在90%的精度下，CABS的召回率平均提升了16.7%。这表明CABS能够有效地减少幻觉，提高生成数据的保真度。此外，实验还验证了置信度网络的有效性，证明其能够准确地预测子结构的置信度。

🎯 应用场景

该研究成果可广泛应用于各种需要结构化数据生成的场景，例如产品属性生成、知识图谱构建、数据库填充等。通过提高生成数据的真实性和准确性，可以提升下游任务的性能，例如信息检索、问答系统和推荐系统。此外，该方法还可以应用于文档生成、代码生成等领域，具有广泛的应用前景和实际价值。

📄 摘要（原文）

Large Language Models (LLMs) have facilitated structured data generation, with applications in domains like tabular data, document databases, product catalogs, etc. However, concerns persist about generation veracity due to incorrect references or hallucinations, necessitating the incorporation of some form of model confidence for mitigation. Existing confidence estimation methods on LLM generations primarily focus on the confidence at the individual token level or the entire output sequence level, limiting their applicability to structured data generation, which consists of an intricate mix of both independent and correlated entries at the sub-structure level. In this paper, we first investigate confidence estimation methods for generated sub-structure-level data. We introduce the concept of Confidence Network that applies on the hidden state of the LLM transformer, as a more targeted estimate than the traditional token conditional probability. We further propose Confidence-Aware sub-structure Beam Search (CABS), a novel decoding method operating at the sub-structure level in structured data generation. CABS enhances the faithfulness of structured data generation by considering confidence scores from the Confidence Network for each sub-structure-level data and iteratively refining the prompts. Results show that CABS outperforms traditional token-level beam search for structured data generation by 16.7% Recall at 90% precision averagely on the problem of product attribute generation.

Confidence-Aware Sub-Structure Beam Search (CABS): Mitigating Hallucination in Structured Data Generation with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理