LLM-based Schema-Guided Extraction and Validation of Missing-Person Intelligence from Heterogeneous Data Sources

📄 arXiv: 2604.06571v1 📥 PDF

作者: Joshua Castillo, Ravi Mukkamala

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2026-04-08

备注: 9 pages, 6 figures. Accepted at International Conference on Intelligent Digitization of Systems and Services (IDSS 2026)


💡 一句话要点

提出Guardian Parser Pack,利用LLM从异构数据源中提取和验证失踪人员情报

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 失踪人员调查 信息提取 大型语言模型 模式验证 异构数据源

📋 核心要点

  1. 失踪人员调查依赖于格式各异的文档,现有方法难以快速分类、大规模分析和规划搜索。
  2. Guardian Parser Pack采用AI驱动的解析流程,将多源文档转换为统一的模式表示,便于操作审查和空间建模。
  3. 实验表明,LLM辅助路径显著提升了提取质量和关键字段完整性,验证了其在高风险调查环境中的有效性。

📝 摘要(中文)

本文介绍了一种名为Guardian Parser Pack的AI驱动解析和规范化流程,旨在将来自多个来源的调查文档转换为统一的、符合模式的表示,以便进行操作审查和下游空间建模。该系统集成了:(i)多引擎PDF文本提取与光学字符识别(OCR)回退;(ii)基于规则的来源识别与特定来源的解析器;(iii)模式优先的协调和验证;以及(iv)可选的基于大型语言模型(LLM)的提取路径,该路径结合了验证器引导的修复和共享地理编码服务。本文介绍了系统架构、关键实现决策和输出设计,并使用黄金对齐的提取指标和语料库级别的操作指标评估性能。在手动对齐的75个案例子集中,LLM辅助路径的提取质量明显高于确定性比较器(F1 = 0.8664 vs. 0.2578),而在每个路径的517条解析记录中,它还提高了聚合关键字段的完整性(96.97% vs. 93.23%)。确定性路径仍然快得多(平均运行时间为0.03秒/记录,而LLM路径为3.95秒/记录)。在评估的运行中,所有LLM输出都通过了初始模式验证,因此验证器引导的修复充当了内置的安全措施,而不是观察到的收益的贡献者。这些结果支持在模式优先、可审计的管道中控制使用概率AI,以用于高风险的调查环境。

🔬 方法详解

问题定义:当前失踪人员调查面临的关键问题是如何从各种异构数据源(如结构化表格、公告栏海报和叙述性网页资料)中提取和整合关键信息。现有方法难以应对布局、术语和数据质量的差异,导致信息提取效率低下,阻碍了快速分类、大规模分析和搜索规划等工作。

核心思路:本文的核心思路是构建一个基于AI的解析和规范化流程,将异构的调查文档转换为统一的、符合预定义模式的表示。通过模式优先的方法,确保提取的信息具有一致性和可验证性,从而提高下游任务的效率和准确性。

技术框架:Guardian Parser Pack包含以下主要模块:(1) 多引擎PDF文本提取与OCR回退,确保从各种文档格式中提取文本;(2) 基于规则的来源识别与特定来源的解析器,针对不同来源的文档采用不同的解析策略;(3) 模式优先的协调和验证,将提取的信息映射到预定义的模式,并进行验证;(4) 可选的LLM辅助提取路径,利用LLM进行更复杂的语义理解和信息提取,并使用验证器引导的修复机制。

关键创新:该方法最重要的创新点在于将LLM与模式优先的方法相结合,利用LLM的强大语义理解能力来提高信息提取的准确率,同时利用模式验证来约束LLM的输出,确保提取的信息符合预定义的结构和语义。这种结合既发挥了LLM的优势,又避免了其可能产生的幻觉问题。

关键设计:在LLM辅助提取路径中,采用了验证器引导的修复机制,即利用模式验证的结果来指导LLM进行修正,从而提高提取的准确率。此外,系统还集成了共享地理编码服务,用于标准化地理位置信息。在实验中,评估了LLM辅助路径和确定性路径的性能,并比较了它们的提取质量、完整性和运行时间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在手动对齐的75个案例子集中,LLM辅助路径的F1值达到0.8664,显著高于确定性比较器的0.2578。在517条解析记录中,LLM辅助路径的关键字段完整性达到96.97%,高于确定性路径的93.23%。虽然LLM辅助路径的运行时间较长(3.95秒/记录),但其提取质量的显著提升证明了其在高风险调查环境中的价值。

🎯 应用场景

该研究成果可广泛应用于失踪人员调查、儿童安全保护等领域,有助于执法部门和相关机构更高效地从海量异构数据中提取关键信息,加速案件侦破,提高救援效率。未来,该技术还可扩展到其他需要从复杂文档中提取信息的领域,如金融、医疗等。

📄 摘要(原文)

Missing-person and child-safety investigations rely on heterogeneous case documents, including structured forms, bulletin-style posters, and narrative web profiles. Variations in layout, terminology, and data quality impede rapid triage, large-scale analysis, and search-planning workflows. This paper introduces the Guardian Parser Pack, an AI-driven parsing and normalization pipeline that transforms multi-source investigative documents into a unified, schema-compliant representation suitable for operational review and downstream spatial modeling. The proposed system integrates (i) multi-engine PDF text extraction with Optical Character Recognition (OCR) fallback, (ii) rule-based source identification with source-specific parsers, (iii) schema-first harmonization and validation, and (iv) an optional Large Language Model (LLM)-assisted extraction pathway incorporating validator-guided repair and shared geocoding services. We present the system architecture, key implementation decisions, and output design, and evaluate performance using both gold-aligned extraction metrics and corpus-level operational indicators. On a manually aligned subset of 75 cases, the LLM-assisted pathway achieved substantially higher extraction quality than the deterministic comparator (F1 = 0.8664 vs. 0.2578), while across 517 parsed records per pathway it also improved aggregate key-field completeness (96.97\% vs. 93.23\%). The deterministic pathway remained much faster (mean runtime 0.03 s/record vs. 3.95 s/record for the LLM pathway). In the evaluated run, all LLM outputs passed initial schema validation, so validator-guided repair functioned as a built-in safeguard rather than a contributor to the observed gains. These results support controlled use of probabilistic AI within a schema-first, auditable pipeline for high-stakes investigative settings.