Comparing LLM and Fine-Tuned Model Performance on NVDRS Circumstance Extraction with Varying Prompt Complexity

📄 arXiv: 2605.21845v1 📥 PDF

作者: Geoffrey Martin, Xuan Zhong Feng, Yifan Peng

分类: cs.CL, cs.AI

发布日期: 2026-05-21

备注: Accepted at IEEE ICHI 2026


💡 一句话要点

提出基于复杂性评分的混合框架,利用LLM和微调模型提升NVDRS死因推断准确率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言处理 大型语言模型 信息抽取 自适应提示 死亡原因分析

📋 核心要点

  1. 现有方法在从死亡调查叙述中提取死因信息时,难以处理需要复杂语义推断的场景,尤其是在数据稀缺的情况下。
  2. 论文提出一种基于“复杂性评分”的混合框架,根据场景的复杂程度自适应地选择使用LLM或微调模型。
  3. 实验表明,该框架在低流行场景下,LLM的表现显著优于微调模型,且该框架可推广至多种前沿LLM。

📝 摘要(中文)

自杀是美国主要的死亡原因之一,理解其发生的环境需要从死亡调查叙述中提取结构化信息。许多此类环境需要超出简单关键词匹配的语义推断。我们开发了一种“复杂性评分”算法,该算法分析编码手册结构,以预测何时使用完整编码指南的详细提示优于仅使用名称的提示。然后,我们构建了一种混合方法,该方法根据具体情况选择提示策略。我们评估了大型语言模型(LLM)与在国家暴力死亡报告系统(NVDRS)中25个推断复杂的环境上微调的RoBERTa。我们发现,LLM在训练数据不足的低流行环境中表现明显优于微调模型。我们进一步证明了我们的框架可以推广到前沿LLM,GPT-5.2、Gemini 2.5 Pro和Llama-3 70B显示出一致的性能模式。这些发现支持一种混合架构,其中LLM处理罕见的、推断复杂的环境,而微调模型处理常见的环境。

🔬 方法详解

问题定义:论文旨在解决从国家暴力死亡报告系统(NVDRS)的死亡调查叙述中提取死因相关信息的问题,特别是那些需要复杂语义推断且数据稀缺的场景。现有方法,如基于关键词匹配或简单分类的模型,难以有效处理这些复杂情况,导致信息提取的准确率较低。

核心思路:论文的核心思路是构建一个混合框架,该框架能够根据具体场景的复杂程度,自适应地选择使用大型语言模型(LLM)或微调的RoBERTa模型。对于需要复杂推断且数据稀缺的场景,利用LLM的强大泛化能力;对于常见场景,则使用微调模型以提高效率和准确性。

技术框架:该框架包含以下几个主要模块:1) 复杂性评分算法:分析编码手册结构,预测详细提示(包含完整编码指南)何时优于简单提示(仅包含名称)。2) 提示策略选择模块:根据复杂性评分,为每个场景选择合适的提示策略。3) 模型选择模块:根据场景的复杂程度和数据量,选择使用LLM或微调的RoBERTa模型。4) 信息提取模块:利用选定的模型和提示策略,从死亡调查叙述中提取相关信息。

关键创新:该论文的关键创新在于提出了一种基于“复杂性评分”的自适应提示策略选择方法,能够根据场景的复杂程度动态地选择合适的模型和提示策略。这种混合方法充分利用了LLM的泛化能力和微调模型的效率,从而提高了信息提取的准确率和效率。与现有方法相比,该方法能够更好地处理需要复杂语义推断且数据稀缺的场景。

关键设计:复杂性评分算法的具体实现细节未知,但其核心思想是分析编码手册的结构,例如编码规则的数量、编码选项的复杂程度等,从而预测场景的复杂程度。提示策略的设计包括简单提示(仅包含名称)和详细提示(包含完整编码指南)。LLM的选择包括GPT-5.2、Gemini 2.5 Pro和Llama-3 70B等前沿模型。微调的RoBERTa模型的具体训练细节未知。

📊 实验亮点

实验结果表明,在低流行场景下,LLM的表现显著优于微调的RoBERTa模型,证明了LLM在处理数据稀缺且需要复杂语义推断的任务中的优势。此外,该框架在GPT-5.2、Gemini 2.5 Pro和Llama-3 70B等多种前沿LLM上均表现出一致的性能模式,验证了该框架的通用性和鲁棒性。

🎯 应用场景

该研究成果可应用于改进国家暴力死亡报告系统(NVDRS)的数据收集和分析,从而更准确地了解自杀等暴力死亡事件的发生原因和模式。此外,该混合框架也可推广到其他需要从文本中提取结构化信息的领域,如医疗记录分析、法律文件处理等,具有广泛的应用前景。

📄 摘要(原文)

Suicide is a leading cause of death in the United States, and understanding the circumstances that precede it requires extracting structured information from death investigation narratives. Many of these circumstances require semantic inference beyond simple keyword matching. We develop a ``Complexity Score'' algorithm that analyzes coding manual structure to predict when detailed prompts with full coding guidelines improve over name-only prompts. We then construct a hybrid approach that selects prompt strategy per circumstance. We evaluate large language models (LLMs) against fine-tuned RoBERTa on 25 inferentially complex circumstances from the National Violent Death Reporting System (NVDRS). We found that LLMs substantially outperform on low-prevalence circumstances where training data is insufficient. We further demonstrate that our framework generalizes across frontier LLMs, with GPT-5.2, Gemini 2.5 Pro and Llama-3 70B showing consistent performance patterns. These findings support a hybrid architecture where LLMs handle rare, inferentially complex circumstances while fine-tuned models handle common ones.