Efficacy of Large Language Models in Systematic Reviews

作者: Aaditya Shah, Shridhar Mehendale, Siddha Kanthi

分类: cs.CL, cs.LG

发布日期: 2024-08-03 (更新: 2024-10-26)

备注: Both Shah and Mehendale contributed equally to this work; order of authorship is random. This paper will be published in the proceedings of The 2nd International Conference on Foundation and Large Language Models (FLLM2024) in IEEE Xplore

💡 一句话要点

评估大语言模型在ESG系统性综述中的有效性，提升投资决策效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 系统性综述 ESG投资 文献综述 自然语言处理

📋 核心要点

现有ESG文献综述耗时耗力，缺乏高效的自动化方法，难以快速响应市场变化。
利用大语言模型自动提取和总结ESG文献信息，加速系统性综述过程，辅助投资决策。
微调后的GPT-4o Mini模型在准确率上显著优于基础LLMs，证明了LLMs在ESG综述中的潜力。

📝 摘要（中文）

本研究旨在评估大语言模型（LLMs）在解读现有文献方面的有效性，具体通过对环境、社会和治理（ESG）因素与财务绩效之间关系进行系统性综述。主要目标是评估LLMs如何复现关于ESG论文语料库的系统性综述。我们构建并手动编码了一个包含2020年3月至2024年5月期间发表的88篇相关论文的数据库。此外，我们使用了先前对2015年1月至2020年2月期间ESG文献进行系统性综述的238篇论文。我们评估了两个当前最先进的LLMs，Meta AI的Llama 3 8B和OpenAI的GPT-4o，在两个论文集上，相对于人工分类，它们的解释的准确性。然后，我们将这些结果与“Custom GPT”和使用238篇论文语料库作为训练数据微调的GPT-4o Mini模型进行了比较。微调后的GPT-4o Mini模型在提示1上的总体准确率平均优于基础LLMs 28.3%。同时，“Custom GPT”在提示2和提示3上的总体准确率平均提高了3.0%和15.7%。我们的研究结果为投资者和机构利用LLMs总结与ESG投资相关的复杂证据提供了有希望的结果，从而能够更快地做出决策并提高市场效率。

🔬 方法详解

问题定义：本研究旨在评估大语言模型在执行系统性文献综述任务中的有效性，特别是在环境、社会和治理（ESG）领域。现有的人工综述方法耗时且成本高昂，难以快速处理大量文献，并且可能存在主观偏差。因此，需要一种自动化的方法来加速文献综述过程，并提高结果的客观性和一致性。

核心思路：核心思路是利用大语言模型强大的文本理解和生成能力，自动提取和总结ESG相关文献的关键信息，并将其与人工编码的结果进行比较，从而评估LLMs在系统性综述中的表现。通过微调和定制化提示工程，进一步提升LLMs的准确性和效率。

技术框架：整体框架包括以下几个主要阶段：1) 数据收集：收集ESG相关的学术论文，构建数据集。2) 人工编码：由人工专家对论文进行编码，作为ground truth。3) LLM推理：使用不同的LLMs（Llama 3 8B, GPT-4o, Custom GPT, GPT-4o Mini）对论文进行推理，提取关键信息。4) 结果评估：将LLM的输出与人工编码的结果进行比较，计算准确率等指标。5) 模型优化：通过微调和定制化提示工程，优化LLM的性能。

关键创新：本研究的关键创新在于：1) 系统性地评估了多种LLMs在ESG系统性综述任务中的表现。2) 探索了微调和定制化提示工程对LLM性能的影响。3) 提出了利用LLMs加速ESG投资决策的潜在应用。与现有方法相比，本研究提供了一种更高效、更客观的文献综述方法。

关键设计：研究中使用了两个数据集，分别包含88篇和238篇ESG相关论文。使用了Meta AI的Llama 3 8B和OpenAI的GPT-4o作为基础LLMs。通过对GPT-4o进行微调，得到了GPT-4o Mini模型。此外，还使用了“Custom GPT”，通过定制化提示工程来提升性能。评估指标包括准确率等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，微调后的GPT-4o Mini模型在提示1上的总体准确率平均优于基础LLMs 28.3%。同时，“Custom GPT”在提示2和提示3上的总体准确率平均提高了3.0%和15.7%。这些结果表明，通过微调和定制化提示工程，可以显著提升LLMs在系统性综述任务中的性能。

🎯 应用场景

该研究成果可应用于金融投资领域，帮助投资者和机构快速了解ESG相关研究进展，辅助投资决策。此外，该方法还可推广到其他领域的文献综述，加速知识发现和创新过程。未来，可进一步探索LLMs在ESG风险评估、合规性检查等方面的应用。

📄 摘要（原文）

This study investigates the effectiveness of Large Language Models (LLMs) in interpreting existing literature through a systematic review of the relationship between Environmental, Social, and Governance (ESG) factors and financial performance. The primary objective is to assess how LLMs can replicate a systematic review on a corpus of ESG-focused papers. We compiled and hand-coded a database of 88 relevant papers published from March 2020 to May 2024. Additionally, we used a set of 238 papers from a previous systematic review of ESG literature from January 2015 to February 2020. We evaluated two current state-of-the-art LLMs, Meta AI's Llama 3 8B and OpenAI's GPT-4o, on the accuracy of their interpretations relative to human-made classifications on both sets of papers. We then compared these results to a "Custom GPT" and a fine-tuned GPT-4o Mini model using the corpus of 238 papers as training data. The fine-tuned GPT-4o Mini model outperformed the base LLMs by 28.3% on average in overall accuracy on prompt 1. At the same time, the "Custom GPT" showed a 3.0% and 15.7% improvement on average in overall accuracy on prompts 2 and 3, respectively. Our findings reveal promising results for investors and agencies to leverage LLMs to summarize complex evidence related to ESG investing, thereby enabling quicker decision-making and a more efficient market.

Efficacy of Large Language Models in Systematic Reviews

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理