Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report)

作者: Hui Yin, Amir Aryani, Nakul Nambiar

分类: cs.LG, cs.CL

发布日期: 2024-08-05

💡 一句话要点

评估大型语言模型在可持续发展目标映射任务中的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可持续发展目标 多标签分类 性能评估 开源模型

📋 核心要点

现有方法在可持续发展目标（SDG）映射任务中存在局限性，需要更安全、可定制的解决方案。
该研究对比多种开源LLM在SDG映射任务中的性能，以GPT-4o为基线，评估其适用性。
实验结果表明，Mixtral、LLaMA 3、Qwen2和GPT-4o-mini性能接近GPT-4o，LLaMA 2和Gemma仍有提升空间。

📝 摘要（中文）

大型语言模型（LLMs）的应用正在迅速扩展，开源版本也日益普及，为用户提供了更安全和更具适应性的选择。这些模型使用户能够保护数据隐私，无需向第三方提供数据，并且可以针对特定任务进行定制。本研究比较了各种语言模型在可持续发展目标（SDG）映射任务中的性能，并将GPT-4o的输出作为基线。用于比较的开源模型包括Mixtral、LLaMA 2、LLaMA 3、Gemma和Qwen2。此外，还包括GPT-4o-mini（GPT-4o的一个更专业版本）以扩展比较范围。鉴于SDG映射任务的多标签性质，我们采用F1分数、精确率和召回率等指标，并使用微平均来评估模型性能的各个方面。这些指标源自混淆矩阵，以确保全面评估。我们通过绘制基于不同阈值下的F1分数、精确率和召回率的曲线，清晰地观察和分析每个模型的性能。实验结果表明，LLaMA 2和Gemma仍有很大的改进空间。其他四个模型在性能上没有表现出特别大的差异。所有七个模型的输出都可以在Zenodo上找到：https://doi.org/10.5281/zenodo.12789375。

🔬 方法详解

问题定义：论文旨在评估不同大型语言模型（LLMs）在可持续发展目标（SDG）映射任务中的性能。现有方法依赖于闭源模型，存在数据隐私风险和定制化程度不足的问题。开源LLM的出现为解决这些问题提供了新的可能性，但需要对其在特定任务上的性能进行评估。

核心思路：论文的核心思路是通过对比不同LLM在SDG映射任务上的表现，评估其是否能够作为GPT-4o等闭源模型的替代方案。通过量化评估指标，分析各模型的优缺点，为用户选择合适的开源LLM提供参考。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择用于比较的LLM，包括GPT-4o（基线）、Mixtral、LLaMA 2、LLaMA 3、Gemma、Qwen2和GPT-4o-mini；2) 使用这些模型完成SDG映射任务；3) 采用F1分数、精确率和召回率等指标，并使用微平均对模型性能进行评估；4) 通过绘制不同阈值下的性能曲线，分析各模型的表现。

关键创新：该研究的关键创新在于对多种开源LLM在SDG映射这一特定任务上的性能进行了系统性的比较和分析。通过量化指标和可视化分析，为用户选择合适的开源LLM提供了客观依据。此外，该研究还关注了模型的隐私性和可定制性，为LLM的应用提供了新的视角。

关键设计：在评估指标方面，论文选择了F1分数、精确率和召回率，并采用微平均来处理多标签分类问题。通过绘制不同阈值下的性能曲线，可以更全面地了解模型的性能表现。此外，论文还考虑了模型的推理速度和资源消耗等因素，为用户选择合适的模型提供了更全面的信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Mixtral、LLaMA 3、Qwen2和GPT-4o-mini在SDG映射任务上的性能与GPT-4o相当，而LLaMA 2和Gemma仍有较大的提升空间。这些结果为用户选择合适的开源LLM提供了重要的参考依据，并表明开源LLM在特定任务上具有与闭源模型竞争的潜力。

🎯 应用场景

该研究成果可应用于多个领域，例如：政府机构可以使用这些模型来自动识别和分类与SDG相关的文件和报告；非营利组织可以利用这些模型来监测和评估其项目的SDG影响；企业可以使用这些模型来识别和管理其业务运营中的SDG风险和机遇。此外，该研究还可以促进开源LLM在其他领域的应用，例如：医疗保健、金融服务和教育等。

📄 摘要（原文）

The use of large language models (LLMs) is expanding rapidly, and open-source versions are becoming available, offering users safer and more adaptable options. These models enable users to protect data privacy by eliminating the need to provide data to third parties and can be customized for specific tasks. In this study, we compare the performance of various language models on the Sustainable Development Goal (SDG) mapping task, using the output of GPT-4o as the baseline. The selected open-source models for comparison include Mixtral, LLaMA 2, LLaMA 3, Gemma, and Qwen2. Additionally, GPT-4o-mini, a more specialized version of GPT-4o, was included to extend the comparison. Given the multi-label nature of the SDG mapping task, we employed metrics such as F1 score, precision, and recall with micro-averaging to evaluate different aspects of the models' performance. These metrics are derived from the confusion matrix to ensure a comprehensive evaluation. We provide a clear observation and analysis of each model's performance by plotting curves based on F1 score, precision, and recall at different thresholds. According to the results of this experiment, LLaMA 2 and Gemma still have significant room for improvement. The other four models do not exhibit particularly large differences in performance. The outputs from all seven models are available on Zenodo: https://doi.org/10.5281/zenodo.12789375.

Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report)

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理