Navigating the Prompt Space: Improving LLM Classification of Social Science Texts Through Prompt Engineering
作者: Erkan Gunes, Christoffer Florczak, Tevfik Murat Yildirim
分类: cs.CL, cs.CY
发布日期: 2026-03-26
💡 一句话要点
通过Prompt工程优化LLM在社会科学文本分类中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 Prompt工程 文本分类 社会科学 指令学习
📋 核心要点
- 现有LLM文本分类性能差异大,缺乏系统性的Prompt优化方法。
- 通过调整Prompt上下文中的标签描述、指令和少量样本,探索最佳Prompt工程策略。
- 实验表明适度增加Prompt上下文能有效提升性能,但需针对不同模型和任务进行独立验证。
📝 摘要(中文)
本文研究了如何通过Prompt工程来提升大型语言模型(LLM)在社会科学文本分类任务中的性能。尽管LLM在文本分类中展现出降低成本和媲美现有方法的潜力,但性能差异较大。本文系统地探索了Prompt上下文中三个关键因素的影响:标签描述、指令引导和少量样本示例。实验结果表明,适度增加Prompt上下文能显著提升性能,但进一步增加可能导致性能提升边际效应递减,甚至降低准确率。此外,不同模型、任务和批次大小之间存在显著差异,强调了对每个LLM编码任务进行独立验证的必要性,而非依赖通用规则。
🔬 方法详解
问题定义:本文旨在解决如何有效利用Prompt工程提升LLM在社会科学文本分类任务中的性能。现有方法在Prompt设计上缺乏系统性,导致LLM性能不稳定,难以达到最佳效果。简单的套用通用规则无法保证在特定任务上的有效性。
核心思路:核心思路是通过系统性地调整Prompt上下文,包括标签描述、指令引导和少量样本示例,来优化LLM的分类性能。通过实验分析不同Prompt上下文对性能的影响,找到最佳的Prompt工程策略。
技术框架:该研究没有提出新的模型架构,而是侧重于Prompt的设计。主要流程包括:1) 选择社会科学文本分类任务;2) 设计不同Prompt上下文,包括调整标签描述、指令引导和少量样本示例;3) 使用LLM进行文本分类;4) 评估分类性能,分析不同Prompt上下文对性能的影响。
关键创新:关键创新在于系统性地研究了Prompt上下文中三个关键因素(标签描述、指令引导和少量样本示例)对LLM分类性能的影响,并揭示了适度增加Prompt上下文的重要性。强调了针对不同模型和任务进行独立验证的必要性。
关键设计:实验中,作者设计了多种不同的Prompt,通过改变标签描述的详细程度、指令引导的明确程度以及少量样本示例的数量和质量,来探索最佳的Prompt工程策略。具体的技术细节包括:不同长度和详细程度的标签描述;不同程度的指令引导,例如“请分类”与“请仔细阅读并分类”;不同数量和质量的少量样本示例。
🖼️ 关键图片
📊 实验亮点
实验结果表明,适度增加Prompt上下文能显著提升LLM在社会科学文本分类任务中的性能。但进一步增加Prompt上下文可能导致性能提升边际效应递减,甚至降低准确率。此外,不同模型、任务和批次大小之间存在显著差异,强调了针对不同场景进行独立验证的重要性。
🎯 应用场景
该研究成果可应用于社会科学领域的文本数据分析,例如政治文本分类、社会议题识别等。通过优化Prompt工程,可以提升LLM在这些任务中的准确性和效率,降低人工标注成本,加速社会科学研究进程。未来可进一步探索更复杂的Prompt设计方法,并将其应用于更广泛的文本分类任务。
📄 摘要(原文)
Recent developments in text classification using Large Language Models (LLMs) in the social sciences suggest that costs can be cut significantly, while performance can sometimes rival existing computational methods. However, with a wide variance in performance in current tests, we move to the question of how to maximize performance. In this paper, we focus on prompt context as a possible avenue for increasing accuracy by systematically varying three aspects of prompt engineering: label descriptions, instructional nudges, and few shot examples. Across two different examples, our tests illustrate that a minimal increase in prompt context yields the highest increase in performance, while further increases in context only tend to yield marginal performance increases thereafter. Alarmingly, increasing prompt context sometimes decreases accuracy. Furthermore, our tests suggest substantial heterogeneity across models, tasks, and batch size, underlining the need for individual validation of each LLM coding task rather than reliance on general rules.