Enhancing Health Fact-Checking with LLM-Generated Synthetic Data
作者: Jingze Zhang, Jiahe Qian, Yiliang Zhou, Yifan Peng
分类: cs.AI
发布日期: 2025-08-28
💡 一句话要点
提出基于LLM生成合成数据的健康事实核查增强方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事实核查 大型语言模型 合成数据 数据增强 健康信息
📋 核心要点
- 健康领域事实核查面临标注数据稀缺的挑战,限制了模型性能。
- 利用LLM生成合成数据,扩充训练集,提升事实核查模型的泛化能力。
- 实验表明,该方法在PubHealth和SciFact数据集上均取得了显著的性能提升。
📝 摘要(中文)
由于标注训练数据的有限性,健康相关内容的事实核查极具挑战。本研究提出了一种合成数据生成流程,该流程利用大型语言模型(LLM)来扩充健康相关事实核查的训练数据。在该流程中,我们总结源文档,将摘要分解为原子事实,并使用LLM构建句子-事实蕴含表。从表中的蕴含关系,我们进一步生成带有二元真假标签的合成文本-声明对。然后,将这些合成数据与原始数据结合,以微调基于BERT的事实核查模型。在PubHealth和SciFact两个公共数据集上的评估表明,与仅在原始数据上训练的模型相比,我们的流程使F1分数分别提高了0.019和0.049。这些结果突出了LLM驱动的合成数据增强在提高健康相关事实核查器性能方面的有效性。
🔬 方法详解
问题定义:论文旨在解决健康相关内容事实核查中训练数据不足的问题。现有方法依赖于有限的人工标注数据,难以覆盖各种健康声明和证据,导致模型泛化能力受限。
核心思路:论文的核心思路是利用大型语言模型(LLM)的生成能力,自动生成高质量的合成数据,从而扩充训练集。通过模拟真实世界的事实核查场景,LLM可以生成多样化的文本-声明对,并标注其真假标签,为模型提供更丰富的学习信号。
技术框架:该方法包含以下几个主要阶段:1) 文档摘要:对源文档进行总结,提取关键信息。2) 原子事实分解:将摘要分解为独立的原子事实。3) 蕴含关系构建:使用LLM构建句子-事实蕴含表,判断句子是否支持、反对或与事实无关。4) 合成数据生成:基于蕴含关系,生成带有真假标签的文本-声明对。5) 模型微调:将合成数据与原始数据结合,微调基于BERT的事实核查模型。
关键创新:该方法的核心创新在于利用LLM自动生成高质量的合成数据,避免了人工标注的成本和局限性。通过分解原子事实和构建蕴含关系,可以更精确地控制合成数据的质量和多样性,从而提高模型的性能。
关键设计:论文使用了预训练的LLM(具体模型未知)进行摘要、事实分解和蕴含关系构建。在合成数据生成阶段,需要设计合适的prompt,引导LLM生成符合要求的文本-声明对。模型微调阶段,使用了标准的BERT模型,并采用交叉熵损失函数进行训练。具体的超参数设置(如学习率、batch size等)未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在PubHealth数据集上F1分数提高了0.019,在SciFact数据集上F1分数提高了0.049,显著优于仅使用原始数据训练的模型。这表明LLM驱动的合成数据增强可以有效提升健康相关事实核查器的性能。
🎯 应用场景
该研究成果可应用于各种健康信息平台和搜索引擎,帮助用户识别虚假或不准确的健康声明,提高公众的健康素养。此外,该方法还可以扩展到其他领域的事实核查任务中,例如新闻、金融等。
📄 摘要(原文)
Fact-checking for health-related content is challenging due to the limited availability of annotated training data. In this study, we propose a synthetic data generation pipeline that leverages large language models (LLMs) to augment training data for health-related fact checking. In this pipeline, we summarize source documents, decompose the summaries into atomic facts, and use an LLM to construct sentence-fact entailment tables. From the entailment relations in the table, we further generate synthetic text-claim pairs with binary veracity labels. These synthetic data are then combined with the original data to fine-tune a BERT-based fact-checking model. Evaluation on two public datasets, PubHealth and SciFact, shows that our pipeline improved F1 scores by up to 0.019 and 0.049, respectively, compared to models trained only on the original data. These results highlight the effectiveness of LLM-driven synthetic data augmentation in enhancing the performance of health-related fact-checkers.