Leveraging Large Language Models for Automated Definition Extraction with TaxoMatic A Case Study on Media Bias

作者: Timo Spinde, Luyang Lin, Smi Hinterreiter, Isao Echizen

分类: cs.CL

发布日期: 2025-04-01

期刊: Proceedings of the International AAAI Conference on Web and Social Media (ICWSM'25) (2025)

💡 一句话要点

TaxoMatic框架：利用大型语言模型自动提取学术文献中的定义，以媒体偏见为例。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 定义提取 自动化 媒体偏见 学术文献

📋 核心要点

现有方法在从海量学术文献中自动提取概念定义方面存在不足，效率和准确性有待提高。
TaxoMatic框架利用大型语言模型强大的文本理解和生成能力，实现定义提取的自动化。
实验结果表明，TaxoMatic框架在媒体偏见领域表现出色，Claude-3-sonnet模型取得了最佳效果。

📝 摘要（中文）

本文介绍了一个名为TaxoMatic的框架，该框架利用大型语言模型（LLM）来自动从学术文献中提取定义。该框架专注于媒体偏见领域，包括数据收集、基于LLM的相关性分类以及概念定义的提取。该研究在一个包含2398篇手动评估文章的数据集上评估了该框架的有效性，结果表明Claude-3-sonnet在相关性分类和定义提取方面都取得了最佳效果。未来的方向包括扩展数据集并将TaxoMatic应用于其他领域。

🔬 方法详解

问题定义：论文旨在解决从大量学术文献中自动提取概念定义的问题，特别是在媒体偏见领域。现有方法通常依赖人工标注或基于规则的方法，效率低且难以适应不同领域的文献。因此，需要一种能够自动、高效地从学术文献中提取概念定义的框架。

核心思路：论文的核心思路是利用大型语言模型（LLM）强大的文本理解和生成能力，将定义提取任务转化为一个序列标注或文本生成问题。通过训练LLM，使其能够识别文献中与特定概念相关的文本片段，并从中提取或生成相应的定义。

技术框架：TaxoMatic框架包含三个主要阶段：1) 数据收集：收集与目标领域（如媒体偏见）相关的学术文献；2) 基于LLM的相关性分类：使用LLM对文献进行分类，判断其是否包含与目标概念相关的定义；3) 定义提取：对于被判定为相关的文献，使用LLM从中提取或生成概念定义。

关键创新：该框架的关键创新在于将大型语言模型应用于自动定义提取任务，并针对特定领域（如媒体偏见）进行了优化。与传统方法相比，该框架能够更高效、更准确地从海量文献中提取概念定义。

关键设计：论文使用了Claude-3-sonnet作为主要的LLM模型，并针对相关性分类和定义提取任务进行了微调。具体的技术细节，如损失函数、训练参数等，论文中未详细说明（未知）。

📊 实验亮点

实验结果表明，TaxoMatic框架在媒体偏见领域表现出色，Claude-3-sonnet模型在相关性分类和定义提取方面都取得了最佳效果。具体性能数据和对比基线在摘要中未详细说明（未知），但总体而言，该框架证明了利用大型语言模型进行自动定义提取的有效性。

🎯 应用场景

TaxoMatic框架可应用于多个领域，例如知识图谱构建、语义搜索、自动问答系统等。通过自动提取学术文献中的概念定义，可以构建更全面、更准确的知识库，提高信息检索和知识发现的效率。该框架还可用于辅助研究人员进行文献综述，快速了解特定领域的研究进展。

📄 摘要（原文）

This paper introduces TaxoMatic, a framework that leverages large language models to automate definition extraction from academic literature. Focusing on the media bias domain, the framework encompasses data collection, LLM-based relevance classification, and extraction of conceptual definitions. Evaluated on a dataset of 2,398 manually rated articles, the study demonstrates the frameworks effectiveness, with Claude-3-sonnet achieving the best results in both relevance classification and definition extraction. Future directions include expanding datasets and applying TaxoMatic to additional domains.

Leveraging Large Language Models for Automated Definition Extraction with TaxoMatic A Case Study on Media Bias

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理