Automating Thematic Review of Prevention of Future Deaths Reports: Replicating the ONS Child Suicide Study using Large Language Models

作者: Sam Osian, Arpan Dutta, Sahil Bhandari, Iain E. Buchan, Dan W. Joyce

分类: cs.CL

发布日期: 2025-07-28

备注: 8 pages, 1 figure

💡 一句话要点

利用大型语言模型自动化死因预防报告的主题审查，复现ONS儿童自杀研究。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 死因预防报告 主题分析 自动化 儿童自杀

📋 核心要点

人工分析死因预防报告耗时费力，阻碍了对潜在公共安全风险的及时识别和干预。
提出PFD Toolkit，一个基于大型语言模型的自动化流程，用于筛选和主题分析死因预防报告。
实验表明，PFD Toolkit能够高效准确地识别儿童自杀案例，显著提升分析效率并提供可扩展的解决方案。

📝 摘要（中文）

死因预防（PFD）报告由英格兰和威尔士的验尸官发布，旨在标记可能导致进一步生命损失的系统性危害。此前，对此类报告的分析受限于人工识别和编码相关案例所需的大量工作。英国国家统计局（ONS）于2025年发布了一项关于儿童自杀PFD报告（≤18岁）的全国性主题审查，通过完全手动的方式识别出2015年1月至2023年11月的37个案例。本文评估了一个完全自动化的开源“文本到表格”语言模型流程（PFD Toolkit）是否能够重现ONS对儿童自杀PFD报告的识别和主题分析，并评估了效率和可靠性的提升。通过PFD Toolkit的大型语言模型流程处理了2013年7月至2023年11月发布的全部4249份PFD报告。自动筛选识别出验尸官将18岁或以下个人的死亡归因于自杀的案例，并根据ONS编码框架对符合条件的报告进行接收者类别和23个关注子主题的编码。PFD Toolkit识别出72份儿童自杀PFD报告，几乎是ONS统计数量的两倍。三位蒙眼临床医生对144份报告的分层样本进行了裁决，以验证儿童自杀筛选结果。相对于临床医生的共识标注，基于LLM的工作流程显示出显著到几乎完全一致的协议（Cohen's $κ$ = 0.82，95% CI：0.66-0.98，原始协议 = 91%）。端到端脚本运行时间为8分16秒，将以前需要数月才能完成的过程缩短到几分钟。这表明，自动化的LLM分析可以可靠且高效地重现对验尸数据的进行手动主题审查，从而为公共卫生和安全提供可扩展、可重现和及时的见解。PFD Toolkit已开源，可供未来研究使用。

🔬 方法详解

问题定义：本研究旨在解决人工审查死因预防（PFD）报告的效率低下问题。现有方法依赖于手动筛选和编码，耗时且容易出错，无法及时发现和分析潜在的公共卫生风险。特别是对于儿童自杀案例，快速准确的识别至关重要，但人工审查难以满足需求。

核心思路：核心思路是利用大型语言模型（LLM）的文本理解和信息提取能力，自动化PFD报告的筛选和主题分析过程。通过训练LLM识别与儿童自杀相关的关键信息，可以显著减少人工干预，提高分析效率和准确性。这种方法旨在将原本耗时数月的手动过程缩短到几分钟。

技术框架：PFD Toolkit包含以下主要模块：1) 数据获取：收集指定时间段内发布的PFD报告。2) 文本预处理：对报告文本进行清洗和格式化。3) LLM筛选：使用LLM识别报告中与儿童自杀相关的案例。4) 主题编码：对筛选出的报告，使用LLM进行主题编码，提取关键信息。5) 结果验证：通过临床医生对抽样报告进行人工审核，验证LLM的准确性。整个流程是端到端的，可以自动化运行。

关键创新：关键创新在于将大型语言模型应用于死因预防报告的自动化分析。与传统的手动方法相比，该方法具有更高的效率、可扩展性和可重复性。此外，该研究还验证了LLM在处理此类复杂文本数据方面的可靠性，为类似应用提供了参考。

关键设计：研究中使用了开源的大型语言模型，并针对PFD报告的特点进行了微调。关键参数包括LLM的选择、训练数据集的大小和质量、以及主题编码的标签体系。损失函数使用了交叉熵损失，网络结构基于Transformer架构。此外，研究还采用了分层抽样的方法，确保验证集的代表性。

🖼️ 关键图片

📊 实验亮点

PFD Toolkit在识别儿童自杀案例方面表现出色，识别出72份报告，几乎是ONS手动统计数量的两倍。与临床医生的共识标注相比，LLM工作流程显示出显著到几乎完全一致的协议（Cohen's $κ$ = 0.82，95% CI：0.66-0.98，原始协议 = 91%）。端到端脚本运行时间仅为8分16秒，显著提升了分析效率。

🎯 应用场景

该研究成果可应用于公共卫生监测、风险预警和政策制定等领域。通过自动化分析死因预防报告，可以及时发现潜在的公共安全风险，为政府部门提供决策支持，从而减少类似悲剧的发生。此外，该方法还可以推广到其他类型的文本数据分析，例如医疗记录、法律文件等。

📄 摘要（原文）

Prevention of Future Deaths (PFD) reports, issued by coroners in England and Wales, flag systemic hazards that may lead to further loss of life. Analysis of these reports has previously been constrained by the manual effort required to identify and code relevant cases. In 2025, the Office for National Statistics (ONS) published a national thematic review of child-suicide PFD reports ($\leq$ 18 years), identifying 37 cases from January 2015 to November 2023 - a process based entirely on manual curation and coding. We evaluated whether a fully automated, open source "text-to-table" language-model pipeline (PFD Toolkit) could reproduce the ONS's identification and thematic analysis of child-suicide PFD reports, and assessed gains in efficiency and reliability. All 4,249 PFD reports published from July 2013 to November 2023 were processed via PFD Toolkit's large language model pipelines. Automated screening identified cases where the coroner attributed death to suicide in individuals aged 18 or younger, and eligible reports were coded for recipient category and 23 concern sub-themes, replicating the ONS coding frame. PFD Toolkit identified 72 child-suicide PFD reports - almost twice the ONS count. Three blinded clinicians adjudicated a stratified sample of 144 reports to validate the child-suicide screening. Against the post-consensus clinical annotations, the LLM-based workflow showed substantial to almost-perfect agreement (Cohen's $κ$ = 0.82, 95% CI: 0.66-0.98, raw agreement = 91%). The end-to-end script runtime was 8m 16s, transforming a process that previously took months into one that can be completed in minutes. This demonstrates that automated LLM analysis can reliably and efficiently replicate manual thematic reviews of coronial data, enabling scalable, reproducible, and timely insights for public health and safety. The PFD Toolkit is openly available for future research.

Automating Thematic Review of Prevention of Future Deaths Reports: Replicating the ONS Child Suicide Study using Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理