SciDef: Automating Definition Extraction from Academic Literature with Large Language Models

作者: Filip Kučera, Christoph Mandl, Isao Echizen, Radu Timofte, Timo Spinde

分类: cs.IR, cs.CL

发布日期: 2026-02-05

备注: Under Review - Submitted to SIGIR 2026 Resources Track; 8 pages, 6 figures, 4 tables

🔗 代码/项目: GITHUB

💡 一句话要点

SciDef：提出一种基于大语言模型的学术文献定义自动抽取流程。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 定义抽取 大语言模型 自然语言处理 提示工程 知识图谱 学术文献 信息抽取

📋 核心要点

现有方法难以应对海量学术文献中定义抽取的需求，人工提取成本高昂且效率低下。
SciDef 提出利用大语言模型，结合多步提示和 DSPy 优化，实现定义自动抽取。
实验表明，SciDef 在定义抽取任务上表现良好，能够有效提取科学文献中的定义，准确率达到 86.4%。

📝 摘要（中文）

定义是科学研究的基础，但随着出版物数量的显著增加，收集与关键词相关的定义变得极具挑战性。因此，我们推出了 SciDef，一个基于大语言模型的自动定义抽取流程。我们在 DefExtra 和 DefSim 这两个新的人工提取定义和定义对相似度数据集上测试了 SciDef。通过评估 16 个语言模型在不同提示策略下的表现，我们证明了多步和 DSPy 优化的提示可以提高抽取性能。为了评估抽取效果，我们测试了各种指标，并表明基于 NLI 的方法产生了最可靠的结果。我们表明，大语言模型在很大程度上能够从科学文献中提取定义（占我们测试集中定义的 86.4%）；然而，未来的工作不仅应侧重于查找定义，还应侧重于识别相关定义，因为模型往往会过度生成定义。

🔬 方法详解

问题定义：论文旨在解决从海量学术文献中自动抽取定义的问题。现有方法依赖人工，效率低且成本高。此外，如何判断抽取出的定义是否相关也是一个挑战。

核心思路：论文的核心思路是利用大语言模型强大的文本理解和生成能力，通过精心设计的提示（prompting）策略，引导模型从学术文献中识别并提取定义。同时，利用自然语言推理（NLI）技术来评估抽取定义的质量。

技术框架：SciDef 的整体流程包含以下几个主要阶段：1) 文献输入：输入待抽取定义的学术文献。2) 提示工程：设计多步提示和 DSPy 优化提示，引导大语言模型进行定义抽取。3) 定义抽取：利用大语言模型抽取候选定义。4) 定义评估：使用基于 NLI 的方法评估抽取定义的质量，过滤掉不相关的定义。

关键创新：论文的关键创新在于：1) 提出了 SciDef 流程，将大语言模型应用于学术文献定义抽取任务。2) 探索了多步提示和 DSPy 优化提示策略，提高了定义抽取的性能。3) 提出了基于 NLI 的定义评估方法，能够更可靠地评估抽取定义的质量。

关键设计：论文中，多步提示策略将定义抽取任务分解为多个步骤，例如先识别候选定义，再进行筛选和精炼。DSPy 优化提示则通过自动调整提示词，进一步提升模型性能。基于 NLI 的定义评估方法，将抽取出的定义与上下文进行推理，判断其是否一致和相关。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SciDef 能够有效提取科学文献中的定义，准确率达到 86.4%。多步提示和 DSPy 优化提示策略能够显著提高定义抽取的性能。基于 NLI 的定义评估方法比其他评估指标更可靠。该研究在 DefExtra 和 DefSim 两个数据集上进行了评估，证明了 SciDef 的有效性。

🎯 应用场景

SciDef 可应用于构建自动化的知识图谱、术语表，辅助科研人员快速查找和理解专业术语，提高科研效率。此外，该方法还可用于教育领域，帮助学生更好地理解学术概念。未来，该研究可扩展到其他类型的文本，例如法律文件、新闻报道等。

📄 摘要（原文）

Definitions are the foundation for any scientific work, but with a significant increase in publication numbers, gathering definitions relevant to any keyword has become challenging. We therefore introduce SciDef, an LLM-based pipeline for automated definition extraction. We test SciDef on DefExtra & DefSim, novel datasets of human-extracted definitions and definition-pairs' similarity, respectively. Evaluating 16 language models across prompting strategies, we demonstrate that multi-step and DSPy-optimized prompting improve extraction performance. To evaluate extraction, we test various metrics and show that an NLI-based method yields the most reliable results. We show that LLMs are largely able to extract definitions from scientific literature (86.4% of definitions from our test-set); yet future work should focus not just on finding definitions, but on identifying relevant ones, as models tend to over-generate them. Code & datasets are available at https://github.com/Media-Bias-Group/SciDef.

SciDef: Automating Definition Extraction from Academic Literature with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理