Using LLMs to create analytical datasets: A case study of reconstructing the historical memory of Colombia
作者: David Anderson, Galia Benitez, Margret Bjarnadottir, Shriyan Reyya
分类: cs.CL, cs.CY
发布日期: 2025-09-03
💡 一句话要点
利用大型语言模型重建哥伦比亚历史记忆,构建分析数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 历史记忆 自然语言处理 文本分析 哥伦比亚 暴力事件 政策分析
📋 核心要点
- 哥伦比亚缺乏系统性的暴力事件记录,导致历史研究受限,公开数据不足。
- 利用GPT等大型语言模型,从大量新闻文章中提取信息,构建可用于分析的数据集。
- 通过分析暴力事件与古柯作物根除的关系,展示了该数据集在政策分析方面的潜力。
📝 摘要(中文)
哥伦比亚经历了数十年的武装冲突,但直到最近,系统地记录暴力事件才成为哥伦比亚政府的优先事项。这导致缺乏公开的冲突信息,进而缺乏历史记录。本研究利用大型语言模型(LLM)GPT,阅读并回答关于超过20万篇西班牙语暴力相关新闻文章的问题,从而为哥伦比亚的历史记忆做出贡献。我们使用由此产生的数据集进行描述性分析,并研究暴力与古柯作物根除之间的关系,提供此类数据可以支持的政策分析示例。我们的研究表明,LLM通过支持对大型文本语料库进行以前不可行的深度检查,开辟了新的研究机会。
🔬 方法详解
问题定义:论文旨在解决哥伦比亚由于缺乏系统性暴力事件记录而导致的历史研究数据不足的问题。现有方法难以处理大规模非结构化文本数据,无法从中提取有价值的信息,从而限制了对历史事件的深入分析和政策制定。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言处理能力,自动从海量新闻文章中提取关键信息,构建结构化的分析数据集。通过问答的方式,让LLM理解文章内容并提取所需信息,从而克服了传统方法在处理大规模文本数据方面的局限性。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集超过20万篇西班牙语暴力相关新闻文章;2) LLM问答:使用GPT模型阅读文章并回答预定义的问题,提取关键信息;3) 数据集构建:将LLM的回答整理成结构化的数据集;4) 数据分析:利用构建的数据集进行描述性分析和政策分析,例如研究暴力与古柯作物根除之间的关系。
关键创新:该研究的关键创新在于将大型语言模型应用于历史事件的重建和分析。与传统的人工标注或基于规则的信息提取方法相比,LLM能够更高效、更准确地处理大规模非结构化文本数据,并从中提取更丰富的信息。此外,该研究还展示了如何利用LLM构建的数据集进行政策分析,为相关研究提供了新的思路。
关键设计:研究中使用了GPT模型,并针对特定任务设计了合适的提示(prompts)和问题,以引导LLM提取所需信息。具体的问题设计和参数设置未知,但可以推测需要针对西班牙语文本进行优化,并考虑暴力事件的特定语境。
📊 实验亮点
研究成功利用GPT模型处理了超过20万篇西班牙语新闻文章,构建了关于哥伦比亚暴力事件的结构化数据集。通过对该数据集的分析,研究揭示了暴力与古柯作物根除之间的关系,为相关政策制定提供了参考。该研究展示了LLM在处理大规模非结构化文本数据方面的强大能力,并为历史研究和政策分析开辟了新的途径。
🎯 应用场景
该研究成果可应用于历史事件重建、社会科学研究、政策分析等领域。通过利用LLM处理大规模文本数据,可以更深入地了解历史事件的演变过程,为政策制定提供数据支持,并促进相关领域的学术研究。此外,该方法还可以推广到其他语言和领域,具有广泛的应用前景。
📄 摘要(原文)
Colombia has been submerged in decades of armed conflict, yet until recently, the systematic documentation of violence was not a priority for the Colombian government. This has resulted in a lack of publicly available conflict information and, consequently, a lack of historical accounts. This study contributes to Colombia's historical memory by utilizing GPT, a large language model (LLM), to read and answer questions about over 200,000 violence-related newspaper articles in Spanish. We use the resulting dataset to conduct both descriptive analysis and a study of the relationship between violence and the eradication of coca crops, offering an example of policy analyses that such data can support. Our study demonstrates how LLMs have opened new research opportunities by enabling examinations of large text corpora at a previously infeasible depth.