Designing large language model prompts to extract scores from messy text: A shared dataset and challenge

📄 arXiv: 2601.18271v1 📥 PDF

作者: Mike Thelwall

分类: cs.DL, cs.CL

发布日期: 2026-01-26

期刊: Trends in Information Management, 13(2), paper 1 (2025)


💡 一句话要点

提出一个用于评估LLM从文本中提取研究质量评分能力的数据集与挑战。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示工程 信息抽取 研究质量评估 自然语言处理

📋 核心要点

  1. 现有方法难以准确地从包含噪声的文本中提取研究质量评分,存在无效分数和格式问题。
  2. 论文提出通过设计LLM提示,指导模型从文本中提取分数,并处理缺失值和无效格式。
  3. 论文提供了一个包含1446个文本的数据集,并设立挑战,旨在提高LLM在复杂数值任务中的能力,初始准确率为72.6%。

📝 摘要(中文)

本文介绍了一个共享数据集,其中包含1446个短文本,每个文本描述了英国1到4等级的研究质量评分。这是一个包含噪声的数据集,一些文本不包含分数,另一些文本包含无效分数或奇怪的格式。该数据集还提供了有效分数的定义,以及这些文本的正确分数(包括缺失值)的“黄金标准”。面临的挑战是设计一个大型语言模型(LLM)提示,以尽可能准确地从这些文本中提取分数。响应的格式应该是一个数字,不包含其他文本,因此挑战有两个方面:确保LLM仅返回一个数字,并指示它推断文本的正确数字。作为其中的一部分,LLM提示需要解释何时返回缺失值代码-1,而不是在文本未明确包含分数时返回数字。本文还提供了一个简单提示的示例。该挑战的目的有两个:获得此问题的有效解决方案,并提高对复杂数值任务的提示设计和LLM能力的理解。建议的初始解决方案的准确率为72.6%,因此挑战是超越此准确率。

🔬 方法详解

问题定义:论文旨在解决从包含噪声的文本数据中准确提取研究质量评分的问题。现有方法在处理文本中存在的无效分数、奇怪格式以及缺失值时表现不佳,导致提取结果的准确性受到影响。因此,如何设计有效的算法或模型,能够鲁棒地处理这些噪声,并准确地提取出研究质量评分,是本研究需要解决的核心问题。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大文本理解和推理能力,通过精心设计的提示(Prompt)来引导LLM从文本中提取所需的研究质量评分。通过在提示中明确指定有效分数的格式、缺失值的表示方法以及处理无效分数的策略,从而提高LLM提取分数的准确性和可靠性。

技术框架:该方法的技术框架主要包括以下几个步骤:1) 构建包含噪声文本和对应黄金标准评分的数据集;2) 设计LLM的提示,包括明确任务目标、有效分数格式、缺失值表示等;3) 使用LLM处理文本数据,并根据提示提取分数;4) 将提取的分数与黄金标准进行比较,评估LLM的性能。

关键创新:论文的关键创新在于利用LLM的提示工程(Prompt Engineering)来解决信息抽取问题。与传统的基于规则或机器学习的信息抽取方法相比,该方法无需手动设计复杂的规则或训练大量的标注数据,而是通过自然语言描述任务目标和约束条件,引导LLM完成信息抽取任务。这种方法具有更高的灵活性和可扩展性,能够适应不同领域和任务的需求。

关键设计:关键设计包括:1) 提示的设计:提示需要明确指定有效分数的范围(1到4),缺失值的表示(-1),以及处理无效分数的策略(例如,忽略或返回-1);2) LLM的选择:选择具有较强文本理解和推理能力的LLM,例如GPT-3或类似的模型;3) 评估指标:使用准确率等指标来评估LLM提取分数的性能。

📊 实验亮点

论文提供了一个包含1446个带噪声文本的数据集,并提出了一个基于LLM提示的解决方案,初始准确率达到72.6%。该数据集和基线结果为后续研究提供了一个有价值的起点,鼓励研究人员设计更有效的提示或模型,以提高从噪声文本中提取研究质量评分的准确性。

🎯 应用场景

该研究成果可应用于科研评估、文献分析、学术信息检索等领域。通过自动提取研究质量评分,可以提高科研评估的效率和客观性,辅助科研人员快速了解文献质量,为学术决策提供支持。未来,该方法可扩展到其他类型的信息抽取任务,例如从医疗记录中提取疾病诊断信息,从新闻报道中提取事件要素等。

📄 摘要(原文)

In some areas of computing, natural language processing and information science, progress is made by sharing datasets and challenging the community to design the best algorithm for an associated task. This article introduces a shared dataset of 1446 short texts, each of which describes a research quality score on the UK scale of 1 to 4. This is a messy collection, with some texts not containing scores and others including invalid scores or strange formats. With this dataset there is also a description of what constitutes a valid score and a "gold standard" of the correct scores for these texts (including missing values). The challenge is to design a prompt for Large Language Models (LLMs) to extract the scores from these texts as accurately as possible. The format for the response should be a number and no other text so there are two aspects to the challenge: ensuring that the LLM returns only a number, and instructing it to deduce the correct number for the text. As part of this, the LLM prompt needs to explain when to return the missing value code, -1, instead of a number when the text does not clearly contain one. The article also provides an example of a simple prompt. The purpose of the challenge is twofold: to get an effective solution to this problem, and to increase understanding of prompt design and LLM capabilities for complex numerical tasks. The initial solution suggested has an accuracy of 72.6%, so the challenge is to beat this.