On the performativity of SDG classifications in large bibliometric databases

📄 arXiv: 2405.03007v1 📥 PDF

作者: Matteo Ottaviani, Stephan Stahlschmidt

分类: cs.DL, cs.AI, cs.CL

发布日期: 2024-05-05


💡 一句话要点

利用大语言模型评估SDG分类对文献计量数据库的数据偏差影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文献计量分析 可持续发展目标 数据偏差 大型语言模型 模型微调

📋 核心要点

  1. 现有文献计量数据库的SDG分类存在差异,可能引入数据偏差,影响科研成果评估的准确性。
  2. 论文利用LLM学习不同SDG分类注入的数据偏差,通过并行微调,分析模型对不同分类的敏感性。
  3. 实验结果表明,模型在多个层面表现出高度敏感性,提示在研究实践中需谨慎使用LLM。

📝 摘要(中文)

大型文献计量数据库,如Web of Science、Scopus和OpenAlex,促进了文献计量分析,但同时也具有表现性,影响着科学成果的可见性和参与实体的影响力评估。最近,这些数据库在其分类中采用了联合国可持续发展目标(SDGs),但这些分类因其差异性而受到批评。本文提出利用大型语言模型(LLMs)的特性,通过探索五个SDG,来学习由不同SDG分类注入到文献计量数据中的“数据偏差”。我们构建了一个LLM,通过数据库SDG分类中包含的不同SDG分类进行并行微调。结果表明,模型架构、分类出版物、微调过程和自然语言生成方面都具有高度敏感性。不同层面的广泛随意性引发了对在研究实践中使用LLM的担忧。

🔬 方法详解

问题定义:论文旨在解决大型文献计量数据库中,由于不同数据库对联合国可持续发展目标(SDGs)的分类标准不一致,导致的数据偏差问题。现有方法缺乏对这些偏差的系统性评估,可能影响基于文献计量数据的研究结论的可靠性。这种偏差会影响科研成果的可见性,进而影响研究机构的影响力评估。

核心思路:论文的核心思路是利用大型语言模型(LLMs)来学习和量化不同SDG分类标准所引入的数据偏差。通过让LLM接触不同数据库的SDG分类,使其能够识别和区分这些分类之间的差异,从而评估这些差异对文献计量数据的影响。这种方法旨在揭示不同分类标准对研究结果的潜在影响。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:从多个大型文献计量数据库(如Web of Science、Scopus和OpenAlex)收集已标注SDG的文献数据。2) 模型构建:构建一个大型语言模型(LLM),作为偏差学习的基础模型。3) 并行微调:使用不同数据库的SDG分类标准对LLM进行并行微调,使其能够学习不同分类标准下的数据分布。4) 敏感性分析:分析模型在不同架构、分类出版物、微调过程和自然语言生成方面的敏感性。5) 结果评估:评估不同SDG分类标准对模型性能和生成结果的影响,从而量化数据偏差。

关键创新:论文的关键创新在于将大型语言模型应用于文献计量数据的偏差分析。传统方法通常依赖于统计分析或专家评估,难以捕捉复杂的数据偏差模式。通过利用LLM的强大学习能力,论文能够更全面、深入地分析不同SDG分类标准对文献计量数据的影响。此外,并行微调策略使得模型能够同时学习多个分类标准,提高了分析效率。

关键设计:论文的关键设计包括:1) 选择合适的LLM架构,例如Transformer模型。2) 设计有效的并行微调策略,确保模型能够充分学习不同SDG分类标准。3) 定义敏感性分析指标,例如模型预测准确率、生成文本的语义一致性等。4) 采用合适的评估方法,例如人工评估或与其他基线方法进行比较。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM模型对不同SDG分类标准表现出高度敏感性,这突显了在研究实践中使用LLM时需要谨慎。模型架构、分类出版物、微调过程和自然语言生成等多个方面都受到SDG分类的影响,表明数据偏差可能对研究结果产生显著影响。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于改进文献计量数据库的SDG分类标准,提高科研成果评估的公平性和准确性。研究人员可以利用该方法评估不同数据库的分类偏差,选择更可靠的数据源。此外,该方法还可推广到其他领域的数据偏差分析,例如医疗数据、金融数据等。

📄 摘要(原文)

Large bibliometric databases, such as Web of Science, Scopus, and OpenAlex, facilitate bibliometric analyses, but are performative, affecting the visibility of scientific outputs and the impact measurement of participating entities. Recently, these databases have taken up the UN's Sustainable Development Goals (SDGs) in their respective classifications, which have been criticised for their diverging nature. This work proposes using the feature of large language models (LLMs) to learn about the "data bias" injected by diverse SDG classifications into bibliometric data by exploring five SDGs. We build a LLM that is fine-tuned in parallel by the diverse SDG classifications inscribed into the databases' SDG classifications. Our results show high sensitivity in model architecture, classified publications, fine-tuning process, and natural language generation. The wide arbitrariness at different levels raises concerns about using LLM in research practice.