SafePassage: High-Fidelity Information Extraction with Black Box LLMs

📄 arXiv: 2510.00276v1 📥 PDF

作者: Joe Barrow, Raj Patel, Misha Kharkovski, Ben Davies, Ryan Schmitt

分类: cs.CL, cs.LG

发布日期: 2025-09-30


💡 一句话要点

SafePassage:利用黑盒LLM实现高保真信息抽取,显著降低幻觉。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息抽取 大型语言模型 幻觉 安全通道 上下文对齐

📋 核心要点

  1. 现有黑盒LLM的信息抽取方法缺乏可信度,抽取结果可能并非完全基于原始文档,存在“幻觉”问题。
  2. SafePassage方法通过生成与抽取信息一致且基于文档的“安全通道”上下文,来验证和提高信息抽取的可靠性。
  3. 实验表明,SafePassage能显著减少LLM信息抽取中的幻觉,并且微调的Transformer编码器在识别不安全通道方面表现出色。

📝 摘要(中文)

黑盒大型语言模型(LLM)使得信息抽取(IE)易于配置,但难以信任。与传统信息抽取流程不同,抽取的信息不能保证基于文档。为了防止这种情况,本文引入了“安全通道”的概念:由LLM生成的上下文,既基于文档,又与抽取的信息一致。这通过一个三步流程SafePassage来实现,包括:(1)LLM抽取器,从文档中生成结构化实体及其上下文;(2)基于字符串的全局对齐器;(3)评分模型。结果表明,结合使用这三个部分,可以在信息抽取任务中减少高达85%的幻觉,同时将错误标记非幻觉的风险降到最低。SafePassage流程与人类对抽取质量的判断高度一致,这意味着该流程可以双重用于评估LLM。令人惊讶的是,结果还表明,在少量特定任务示例上微调的Transformer编码器在标记不安全通道方面优于LLM评分模型。这些注释可以在短短1-2小时内收集完成。

🔬 方法详解

问题定义:论文旨在解决黑盒LLM在信息抽取任务中存在的“幻觉”问题,即LLM生成的信息并非完全基于输入文档,导致抽取结果不可信。现有方法难以保证抽取信息的可靠性,缺乏有效的验证机制。

核心思路:论文的核心思路是引入“安全通道”(Safe Passage)的概念,即LLM在抽取信息的同时,生成一段上下文,该上下文既要与抽取的信息保持一致,又要能够追溯到原始文档。通过验证这段上下文的可靠性,间接验证抽取信息的可靠性。

技术框架:SafePassage包含三个主要步骤:(1)LLM抽取器:利用LLM从文档中抽取结构化实体及其上下文。(2)全局对齐器:使用基于字符串的全局对齐方法,将LLM生成的上下文与原始文档进行对齐,判断上下文是否基于文档。(3)评分模型:对对齐后的上下文进行评分,判断其是否安全(即既基于文档又与抽取信息一致)。

关键创新:该方法的核心创新在于引入了“安全通道”的概念,将信息抽取的可靠性问题转化为上下文验证问题。通过对上下文进行对齐和评分,可以有效地检测和减少LLM的幻觉。此外,论文还发现,在少量任务特定数据上微调的Transformer编码器在识别不安全通道方面优于直接使用LLM进行评分。

关键设计:全局对齐器使用字符串匹配算法(具体算法未知)来衡量LLM生成的上下文与原始文档的相似度。评分模型可以使用LLM或微调的Transformer编码器。对于Transformer编码器,使用少量标注数据(1-2小时工作量)进行微调,以区分安全和不安全的通道。损失函数和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SafePassage方法能够显著减少LLM信息抽取中的幻觉,最高可减少85%。令人惊讶的是,在少量任务特定数据上微调的Transformer编码器在识别不安全通道方面优于直接使用LLM进行评分,这为低成本构建可靠的信息抽取系统提供了新的思路。

🎯 应用场景

SafePassage可应用于各种需要高可靠性信息抽取的场景,如金融报告分析、法律文档审查、医学文献挖掘等。该方法能够提高抽取信息的准确性和可信度,降低因幻觉信息带来的风险,并可用于评估不同LLM的信息抽取能力,指导LLM的优化和选择。

📄 摘要(原文)

Black box large language models (LLMs) make information extraction (IE) easy to configure, but hard to trust. Unlike traditional information extraction pipelines, the information "extracted" is not guaranteed to be grounded in the document. To prevent this, this paper introduces the notion of a "safe passage": context generated by the LLM that is both grounded in the document and consistent with the extracted information. This is operationalized via a three-step pipeline, SafePassage, which consists of: (1) an LLM extractor that generates structured entities and their contexts from a document, (2) a string-based global aligner, and (3) a scoring model. Results show that using these three parts in conjunction reduces hallucinations by up to 85% on information extraction tasks with minimal risk of flagging non-hallucinations. High agreement between the SafePassage pipeline and human judgments of extraction quality mean that the pipeline can be dually used to evaluate LLMs. Surprisingly, results also show that using a transformer encoder fine-tuned on a small number of task-specific examples can outperform an LLM scoring model at flagging unsafe passages. These annotations can be collected in as little as 1-2 hours.