Enhancing Systematic Reviews with Large Language Models: Using GPT-4 and Kimi

📄 arXiv: 2504.20276v1 📥 PDF

作者: Dandan Chen Kaptur, Yue Huang, Xuejun Ryan Ji, Yanhui Guo, Bradley Kaptur

分类: cs.CL, stat.AP

发布日期: 2025-04-28

备注: 13 pages, Paper presented at the National Council on Measurement in Education (NCME) Conference, Denver, Colorado, in April 2025


💡 一句话要点

利用GPT-4和Kimi增强系统性综述:评估LLM在代码生成中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 系统性综述 代码生成 GPT-4 Kimi 自动化 文献分析

📋 核心要点

  1. 系统性综述耗时耗力,传统方法难以高效处理大量文献,存在自动化程度低的挑战。
  2. 本研究探索使用GPT-4和Kimi等LLM自动生成代码,辅助系统性综述,提高效率和准确性。
  3. 实验表明,LLM的性能受数据量和问题复杂性影响,需要进一步优化以适应不同场景。

📝 摘要(中文)

本研究深入探讨了GPT-4和Kimi这两种大型语言模型(LLM)在系统性综述中的应用。我们通过将LLM生成的代码与同行评审的关于评估的系统性综述中人工生成的代码进行比较,来评估它们的性能。我们的研究结果表明,LLM在系统性综述中的性能会随着数据量和问题复杂性的变化而波动。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLM)在系统性综述中的代码生成能力。现有系统性综述依赖人工编码,效率低且易出错。利用LLM自动生成代码可以显著提高效率,但LLM的性能和可靠性需要评估。

核心思路:核心思路是将LLM作为代码生成器,输入系统性综述的相关信息,让LLM自动生成用于数据分析和总结的代码。通过比较LLM生成的代码与人工生成的代码,评估LLM的性能。

技术框架:该研究的技术框架包括以下步骤:1) 选择GPT-4和Kimi作为LLM;2) 选择一篇已发表的系统性综述作为基准;3) 使用LLM生成代码;4) 将LLM生成的代码与人工生成的代码进行比较;5) 分析比较结果,评估LLM的性能。

关键创新:该研究的关键创新在于首次系统性地评估了GPT-4和Kimi等LLM在系统性综述代码生成方面的能力。通过对比LLM和人工生成的代码,揭示了LLM在不同数据量和问题复杂度下的性能表现。

关键设计:研究的关键设计包括:1) 选择具有代表性的系统性综述作为基准;2) 设计合理的提示语(prompts)引导LLM生成代码;3) 采用合适的评价指标,如代码的准确性、完整性和可读性,来评估LLM的性能。

📊 实验亮点

研究发现,LLM在系统性综述中的代码生成性能受数据量和问题复杂性影响。在数据量较小、问题较为简单的情况下,LLM表现良好。但随着数据量增加、问题变得复杂,LLM的性能会下降。这表明需要进一步优化LLM,以提高其在复杂系统性综述中的应用能力。

🎯 应用场景

该研究成果可应用于医学、社会科学等领域的系统性综述,辅助研究人员快速、准确地分析大量文献,提高研究效率。未来,可进一步优化LLM,使其更好地适应不同类型的系统性综述,并开发更智能的辅助工具。

📄 摘要(原文)

This research delved into GPT-4 and Kimi, two Large Language Models (LLMs), for systematic reviews. We evaluated their performance by comparing LLM-generated codes with human-generated codes from a peer-reviewed systematic review on assessment. Our findings suggested that the performance of LLMs fluctuates by data volume and question complexity for systematic reviews.