Prompt Refinement or Fine-tuning? Best Practices for using LLMs in Computational Social Science Tasks

📄 arXiv: 2408.01346v1 📥 PDF

作者: Anders Giovanni Møller, Luca Maria Aiello

分类: cs.CY, cs.CL, physics.soc-ph

发布日期: 2024-08-02

备注: 5 pages, 1 table


💡 一句话要点

针对计算社会科学任务,研究LLM微调与提示工程的最佳实践

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 计算社会科学 提示工程 微调 最佳实践

📋 核心要点

  1. 计算社会科学领域缺乏LLM应用的最佳实践,模型选择和训练策略多样。
  2. 论文通过基准测试,对比了不同LLM分类方法在社会知识任务上的表现,旨在找到最佳实践。
  3. 研究结果表明,选择大型模型、使用AI增强提示、针对特定任务微调是提升性能的关键。

📝 摘要(中文)

大型语言模型(LLM)是强大的工具,能够执行计算社会科学中复杂的文本理解任务。然而,它们的通用性也为在该领域建立标准化的最佳实践带来了挑战。为了阐明不同策略的价值,我们对基于现代LLM的分类方法在23个社会知识任务的基准上的性能进行了概述。我们的结果指出了三个最佳实践:选择具有更大词汇量和预训练语料库的模型;避免简单的零样本学习,转而使用AI增强的提示工程;在特定任务的数据上进行微调,并且只有在训练数据更丰富时,才考虑在多个数据集上进行更复杂形式的指令调优。

🔬 方法详解

问题定义:论文旨在解决计算社会科学领域中,如何有效利用大型语言模型(LLM)进行文本分类任务的问题。现有方法缺乏统一的最佳实践,研究者难以选择合适的模型、提示策略和微调方法,导致性能参差不齐。

核心思路:论文的核心思路是通过系统性的实验评估,对比不同LLM、提示工程方法和微调策略在多个社会知识任务上的表现,从而总结出最佳实践。通过量化不同方法的优劣,为研究者提供选择和应用LLM的指导。

技术框架:论文的技术框架主要包括以下几个步骤:1) 构建包含23个社会知识任务的基准数据集;2) 选择一系列具有代表性的LLM模型;3) 设计不同的提示工程策略,包括零样本、AI增强提示等;4) 实施微调,包括任务特定数据微调和指令调优;5) 在基准数据集上评估不同方法的效果,并进行对比分析。

关键创新:论文的关键创新在于,它不是简单地提出一种新的模型或方法,而是通过大规模的实验评估,系统性地研究了现有LLM在计算社会科学任务中的应用。这种基于实证的分析方法,能够为研究者提供更可靠的指导,避免盲目尝试。

关键设计:论文的关键设计包括:1) 基准数据集的选择,涵盖了多种社会知识任务,保证了评估的全面性;2) 提示工程策略的设计,考虑了不同复杂度的提示方法,包括零样本、少量样本和AI增强提示;3) 微调策略的选择,包括任务特定数据微调和指令调优,以适应不同的数据量和任务需求。

📊 实验亮点

实验结果表明,选择具有更大词汇量和预训练语料库的模型能够获得更好的性能。相比于简单的零样本学习,AI增强的提示工程能够显著提升效果。在特定任务的数据上进行微调是进一步提升性能的关键。只有在训练数据充足的情况下,才建议考虑在多个数据集上进行更复杂形式的指令调优。

🎯 应用场景

该研究成果可应用于计算社会科学的多个领域,例如情感分析、舆情监控、社会关系分析等。通过遵循论文提出的最佳实践,研究者可以更有效地利用LLM解决实际问题,提高研究效率和准确性。此外,该研究也为其他领域LLM的应用提供了参考。

📄 摘要(原文)

Large Language Models are expressive tools that enable complex tasks of text understanding within Computational Social Science. Their versatility, while beneficial, poses a barrier for establishing standardized best practices within the field. To bring clarity on the values of different strategies, we present an overview of the performance of modern LLM-based classification methods on a benchmark of 23 social knowledge tasks. Our results point to three best practices: select models with larger vocabulary and pre-training corpora; avoid simple zero-shot in favor of AI-enhanced prompting; fine-tune on task-specific data, and consider more complex forms instruction-tuning on multiple datasets only when only training data is more abundant.