Prompt Refinement or Fine-tuning? Best Practices for using LLMs in Computational Social Science Tasks

作者: Anders Giovanni Møller, Luca Maria Aiello

分类: cs.CY, cs.CL, physics.soc-ph

发布日期: 2024-08-02

备注: 5 pages, 1 table

💡 一句话要点

针对计算社会科学任务，研究LLM微调与提示工程的最佳实践

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 计算社会科学 提示工程 微调 最佳实践

📋 核心要点

计算社会科学领域缺乏LLM应用的最佳实践，模型选择和训练策略多样。
论文通过基准测试，对比了不同LLM分类方法在社会知识任务上的表现，旨在找到最佳实践。
研究结果表明，选择大型模型、使用AI增强提示、针对特定任务微调是提升性能的关键。

📝 摘要（中文）

大型语言模型（LLM）是强大的工具，能够执行计算社会科学中复杂的文本理解任务。然而，它们的通用性也为在该领域建立标准化的最佳实践带来了挑战。为了阐明不同策略的价值，我们对基于现代LLM的分类方法在23个社会知识任务的基准上的性能进行了概述。我们的结果指出了三个最佳实践：选择具有更大词汇量和预训练语料库的模型；避免简单的零样本学习，转而使用AI增强的提示工程；在特定任务的数据上进行微调，并且只有在训练数据更丰富时，才考虑在多个数据集上进行更复杂形式的指令调优。

🔬 方法详解

问题定义：论文旨在解决计算社会科学领域中，如何有效利用大型语言模型（LLM）进行文本分类任务的问题。现有方法缺乏统一的最佳实践，研究者难以选择合适的模型、提示策略和微调方法，导致性能参差不齐。

核心思路：论文的核心思路是通过系统性的实验评估，对比不同LLM、提示工程方法和微调策略在多个社会知识任务上的表现，从而总结出最佳实践。通过量化不同方法的优劣，为研究者提供选择和应用LLM的指导。

技术框架：论文的技术框架主要包括以下几个步骤：1) 构建包含23个社会知识任务的基准数据集；2) 选择一系列具有代表性的LLM模型；3) 设计不同的提示工程策略，包括零样本、AI增强提示等；4) 实施微调，包括任务特定数据微调和指令调优；5) 在基准数据集上评估不同方法的效果，并进行对比分析。

关键创新：论文的关键创新在于，它不是简单地提出一种新的模型或方法，而是通过大规模的实验评估，系统性地研究了现有LLM在计算社会科学任务中的应用。这种基于实证的分析方法，能够为研究者提供更可靠的指导，避免盲目尝试。

关键设计：论文的关键设计包括：1) 基准数据集的选择，涵盖了多种社会知识任务，保证了评估的全面性；2) 提示工程策略的设计，考虑了不同复杂度的提示方法，包括零样本、少量样本和AI增强提示；3) 微调策略的选择，包括任务特定数据微调和指令调优，以适应不同的数据量和任务需求。

📊 实验亮点

实验结果表明，选择具有更大词汇量和预训练语料库的模型能够获得更好的性能。相比于简单的零样本学习，AI增强的提示工程能够显著提升效果。在特定任务的数据上进行微调是进一步提升性能的关键。只有在训练数据充足的情况下，才建议考虑在多个数据集上进行更复杂形式的指令调优。

🎯 应用场景

该研究成果可应用于计算社会科学的多个领域，例如情感分析、舆情监控、社会关系分析等。通过遵循论文提出的最佳实践，研究者可以更有效地利用LLM解决实际问题，提高研究效率和准确性。此外，该研究也为其他领域LLM的应用提供了参考。

📄 摘要（原文）

Large Language Models are expressive tools that enable complex tasks of text understanding within Computational Social Science. Their versatility, while beneficial, poses a barrier for establishing standardized best practices within the field. To bring clarity on the values of different strategies, we present an overview of the performance of modern LLM-based classification methods on a benchmark of 23 social knowledge tasks. Our results point to three best practices: select models with larger vocabulary and pre-training corpora; avoid simple zero-shot in favor of AI-enhanced prompting; fine-tune on task-specific data, and consider more complex forms instruction-tuning on multiple datasets only when only training data is more abundant.

Prompt Refinement or Fine-tuning? Best Practices for using LLMs in Computational Social Science Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理