Four Shades of Life Sciences: A Dataset for Disinformation Detection in the Life Sciences

📄 arXiv: 2507.03488v1 📥 PDF

作者: Eva Seidlmayer, Lukas Galke, Konrad U. Förstner

分类: cs.CL

发布日期: 2025-07-04

备注: 30 pages, 5 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出Four Shades of Life Sciences数据集,用于生命科学领域虚假信息检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 虚假信息检测 生命科学 数据集 自然语言处理 机器学习

📋 核心要点

  1. 现有数据集主要集中于事实核查,缺乏对生命科学领域多种文本类型虚假信息的全面覆盖。
  2. 利用虚假信息传播者特有的修辞模式,通过语言和修辞特征来区分不同类型的生命科学文本。
  3. 构建了包含2603篇文本的Four Shades of Life Sciences (FSoLS)数据集,涵盖14个生命科学主题和四种出版物类型。

📝 摘要(中文)

虚假信息的传播者通常试图吸引注意力或唤起情感,以获取影响或产生收入,这导致了独特的修辞模式,可被机器学习模型利用。本研究探索了语言和修辞特征,作为区分虚假信息文本与其他健康和生命科学文本类型的代理。鉴于现有数据集主要关注事实核查的局限性,我们推出了Four Shades of Life Sciences (FSoLS):一个包含2,603篇关于14个生命科学主题的文本的新型标记语料库,这些文本来自17个不同的来源,并被分类为四种生命科学出版物。用于复制和更新数据集的源代码可在GitHub上找到。

🔬 方法详解

问题定义:论文旨在解决生命科学领域虚假信息检测的问题。现有数据集主要集中于事实核查,缺乏对生命科学领域多种文本类型(如科研论文、新闻报道、博客文章等)的虚假信息进行区分和检测,难以满足实际需求。

核心思路:论文的核心思路是利用虚假信息传播者通常采用的特定修辞模式。通过分析文本的语言和修辞特征,可以区分虚假信息文本与其他类型的生命科学文本。这种方法避免了直接进行事实核查的复杂性,而是侧重于文本本身的特征。

技术框架:该研究主要包含两个阶段:数据集构建和模型训练。首先,构建了Four Shades of Life Sciences (FSoLS)数据集,该数据集包含从17个不同来源收集的2603篇文本,涵盖14个生命科学主题,并被分为四种类型。然后,使用大型语言模型和传统机器学习分类器,基于语言和修辞特征对文本进行分类,以区分不同类型的生命科学出版物。

关键创新:该研究的关键创新在于构建了一个新的、多样化的生命科学文本数据集(FSoLS),该数据集不仅包含虚假信息,还包括其他类型的生命科学文本,从而更全面地反映了该领域的文本生态。此外,该研究探索了利用语言和修辞特征进行虚假信息检测的方法,避免了对外部知识库的依赖。

关键设计:数据集构建的关键在于选择多样化的数据来源和主题,并进行准确的文本分类。模型训练的关键在于选择合适的语言和修辞特征,并使用合适的机器学习模型进行训练。具体的技术细节(如特征选择、模型参数等)在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究构建了包含2603篇文本的Four Shades of Life Sciences (FSoLS)数据集,涵盖14个生命科学主题和四种出版物类型。论文中使用了大型语言模型和传统机器学习分类器进行实验,但具体的性能数据、对比基线和提升幅度等信息在摘要中未提及,属于未知信息。

🎯 应用场景

该研究成果可应用于生命科学领域的虚假信息检测,帮助研究人员、医疗专业人员和公众识别和避免虚假信息的误导。该数据集和方法可以用于开发自动化的虚假信息检测系统,提高信息的可信度和可靠性,从而促进科学研究的健康发展和公众的健康素养。

📄 摘要(原文)

Disseminators of disinformation often seek to attract attention or evoke emotions - typically to gain influence or generate revenue - resulting in distinctive rhetorical patterns that can be exploited by machine learning models. In this study, we explore linguistic and rhetorical features as proxies for distinguishing disinformative texts from other health and life-science text genres, applying both large language models and classical machine learning classifiers. Given the limitations of existing datasets, which mainly focus on fact checking misinformation, we introduce Four Shades of Life Sciences (FSoLS): a novel, labeled corpus of 2,603 texts on 14 life-science topics, retrieved from 17 diverse sources and classified into four categories of life science publications. The source code for replicating, and updating the dataset is available on GitHub: https://github.com/EvaSeidlmayer/FourShadesofLifeSciences