Efficacy of Large Language Models in Systematic Reviews

📄 arXiv: 2408.04646v2 📥 PDF

作者: Aaditya Shah, Shridhar Mehendale, Siddha Kanthi

分类: cs.CL, cs.LG

发布日期: 2024-08-03 (更新: 2024-10-26)

备注: Both Shah and Mehendale contributed equally to this work; order of authorship is random. This paper will be published in the proceedings of The 2nd International Conference on Foundation and Large Language Models (FLLM2024) in IEEE Xplore


💡 一句话要点

评估大语言模型在ESG系统性综述中的有效性,提升投资决策效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 系统性综述 ESG投资 文献综述 自然语言处理

📋 核心要点

  1. 现有ESG文献综述耗时耗力,缺乏高效的自动化方法,难以快速响应市场变化。
  2. 利用大语言模型自动提取和总结ESG文献信息,加速系统性综述过程,辅助投资决策。
  3. 微调后的GPT-4o Mini模型在准确率上显著优于基础LLMs,证明了LLMs在ESG综述中的潜力。

📝 摘要(中文)

本研究旨在评估大语言模型(LLMs)在解读现有文献方面的有效性,具体通过对环境、社会和治理(ESG)因素与财务绩效之间关系进行系统性综述。主要目标是评估LLMs如何复现关于ESG论文语料库的系统性综述。我们构建并手动编码了一个包含2020年3月至2024年5月期间发表的88篇相关论文的数据库。此外,我们使用了先前对2015年1月至2020年2月期间ESG文献进行系统性综述的238篇论文。我们评估了两个当前最先进的LLMs,Meta AI的Llama 3 8B和OpenAI的GPT-4o,在两个论文集上,相对于人工分类,它们的解释的准确性。然后,我们将这些结果与“Custom GPT”和使用238篇论文语料库作为训练数据微调的GPT-4o Mini模型进行了比较。微调后的GPT-4o Mini模型在提示1上的总体准确率平均优于基础LLMs 28.3%。同时,“Custom GPT”在提示2和提示3上的总体准确率平均提高了3.0%和15.7%。我们的研究结果为投资者和机构利用LLMs总结与ESG投资相关的复杂证据提供了有希望的结果,从而能够更快地做出决策并提高市场效率。

🔬 方法详解

问题定义:本研究旨在评估大语言模型在执行系统性文献综述任务中的有效性,特别是在环境、社会和治理(ESG)领域。现有的人工综述方法耗时且成本高昂,难以快速处理大量文献,并且可能存在主观偏差。因此,需要一种自动化的方法来加速文献综述过程,并提高结果的客观性和一致性。

核心思路:核心思路是利用大语言模型强大的文本理解和生成能力,自动提取和总结ESG相关文献的关键信息,并将其与人工编码的结果进行比较,从而评估LLMs在系统性综述中的表现。通过微调和定制化提示工程,进一步提升LLMs的准确性和效率。

技术框架:整体框架包括以下几个主要阶段:1) 数据收集:收集ESG相关的学术论文,构建数据集。2) 人工编码:由人工专家对论文进行编码,作为ground truth。3) LLM推理:使用不同的LLMs(Llama 3 8B, GPT-4o, Custom GPT, GPT-4o Mini)对论文进行推理,提取关键信息。4) 结果评估:将LLM的输出与人工编码的结果进行比较,计算准确率等指标。5) 模型优化:通过微调和定制化提示工程,优化LLM的性能。

关键创新:本研究的关键创新在于:1) 系统性地评估了多种LLMs在ESG系统性综述任务中的表现。2) 探索了微调和定制化提示工程对LLM性能的影响。3) 提出了利用LLMs加速ESG投资决策的潜在应用。与现有方法相比,本研究提供了一种更高效、更客观的文献综述方法。

关键设计:研究中使用了两个数据集,分别包含88篇和238篇ESG相关论文。使用了Meta AI的Llama 3 8B和OpenAI的GPT-4o作为基础LLMs。通过对GPT-4o进行微调,得到了GPT-4o Mini模型。此外,还使用了“Custom GPT”,通过定制化提示工程来提升性能。评估指标包括准确率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,微调后的GPT-4o Mini模型在提示1上的总体准确率平均优于基础LLMs 28.3%。同时,“Custom GPT”在提示2和提示3上的总体准确率平均提高了3.0%和15.7%。这些结果表明,通过微调和定制化提示工程,可以显著提升LLMs在系统性综述任务中的性能。

🎯 应用场景

该研究成果可应用于金融投资领域,帮助投资者和机构快速了解ESG相关研究进展,辅助投资决策。此外,该方法还可推广到其他领域的文献综述,加速知识发现和创新过程。未来,可进一步探索LLMs在ESG风险评估、合规性检查等方面的应用。

📄 摘要(原文)

This study investigates the effectiveness of Large Language Models (LLMs) in interpreting existing literature through a systematic review of the relationship between Environmental, Social, and Governance (ESG) factors and financial performance. The primary objective is to assess how LLMs can replicate a systematic review on a corpus of ESG-focused papers. We compiled and hand-coded a database of 88 relevant papers published from March 2020 to May 2024. Additionally, we used a set of 238 papers from a previous systematic review of ESG literature from January 2015 to February 2020. We evaluated two current state-of-the-art LLMs, Meta AI's Llama 3 8B and OpenAI's GPT-4o, on the accuracy of their interpretations relative to human-made classifications on both sets of papers. We then compared these results to a "Custom GPT" and a fine-tuned GPT-4o Mini model using the corpus of 238 papers as training data. The fine-tuned GPT-4o Mini model outperformed the base LLMs by 28.3% on average in overall accuracy on prompt 1. At the same time, the "Custom GPT" showed a 3.0% and 15.7% improvement on average in overall accuracy on prompts 2 and 3, respectively. Our findings reveal promising results for investors and agencies to leverage LLMs to summarize complex evidence related to ESG investing, thereby enabling quicker decision-making and a more efficient market.