Measuring Social Integration Through Participation: Categorizing Organizations and Leisure Activities in the Displaced Karelians Interview Archive using LLMs
作者: Joonatan Laato, Veera Schroderus, Jenna Kanerva, Jenni Kauppi, Virpi Lummaa, Filip Ginter
分类: cs.CL
发布日期: 2026-02-17
备注: Presented at: The 10th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature; EACL 2026 Workshop
💡 一句话要点
利用LLM对卡累利阿流离失所者访谈档案中的组织和休闲活动进行分类,以衡量社会融合度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社会融合 大型语言模型 历史档案 文本分类 社会学研究
📋 核心要点
- 现有方法难以从大规模历史文本档案中提取可量化的社会融合指标,面临分析海量非结构化数据的挑战。
- 论文提出利用大型语言模型(LLM)对历史访谈数据中的活动和组织进行分类,构建结构化资源。
- 实验表明,开放权重LLM通过简单的投票方法,能够以高精度匹配专家判断,实现大规模数据标注。
📝 摘要(中文)
本文旨在利用数字化历史档案大规模研究日常社会生活,解决从文本中直接提取的信息难以量化回答历史学家或社会学家研究问题的问题。研究对象是二战时期芬兰卡累利阿撤离人员家庭访谈的大型集合。前期工作已从中提取了超过35万条关于休闲活动和组织成员的信息,产生了7.1万个独特的活动和组织名称,数量过于庞大难以直接分析。本文开发了一个分类框架,捕捉参与的关键方面(活动/组织的类型、社交程度、发生频率和体力消耗程度)。通过标注黄金标准数据集进行可靠评估,并测试大型语言模型是否可以大规模应用相同的模式。结果表明,通过多次模型运行的简单投票方法,开放权重LLM可以与专家判断紧密匹配。最后,该方法被应用于标记35万个实体,为社会融合及相关结果的下游研究提供结构化资源。
🔬 方法详解
问题定义:论文旨在解决从大规模历史访谈档案中提取的活动和组织信息数量庞大,难以直接分析和量化的问题。现有方法无法有效处理7.1万个独特的活动和组织名称,阻碍了对社会融合等问题的深入研究。
核心思路:论文的核心思路是利用大型语言模型(LLM)的语义理解和分类能力,将这些活动和组织按照预定义的分类框架进行自动分类。通过将非结构化的文本数据转化为结构化的数据,使得研究人员可以进行量化分析,从而更好地理解社会融合等现象。
技术框架:整体框架包括以下几个主要阶段:1) 数据预处理:从历史访谈档案中提取活动和组织信息。2) 分类框架设计:定义一个包含活动/组织的类型、社交程度、发生频率和体力消耗程度等关键方面的分类框架。3) 黄金标准数据集构建:人工标注一部分数据作为黄金标准,用于评估LLM的性能。4) LLM分类:使用LLM对所有活动和组织进行分类。5) 结果评估:将LLM的分类结果与黄金标准进行比较,评估其准确性。6) 结果应用:将分类后的数据用于下游的社会融合研究。
关键创新:论文的关键创新在于利用开放权重的LLM,通过简单的投票方法,实现了与专家判断高度一致的自动分类。这种方法避免了昂贵的商业LLM的使用,降低了成本,并且具有良好的可复现性。此外,论文还提出了一个适用于历史社会学研究的分类框架,为后续研究提供了参考。
关键设计:论文使用了多次模型运行的投票方法来提高分类的准确性。具体来说,对每个活动和组织,运行多次LLM,然后选择出现次数最多的类别作为最终的分类结果。这种方法可以有效地减少LLM的随机性带来的误差,提高分类的鲁棒性。论文还仔细设计了分类框架,确保其能够捕捉到参与的关键方面,并且易于理解和应用。
📊 实验亮点
实验结果表明,开放权重LLM通过简单的投票方法,能够以高精度匹配专家判断。具体来说,LLM在多个分类任务上都取得了令人满意的结果,证明了其在处理大规模历史文本数据方面的潜力。该研究为利用LLM进行社会科学研究提供了一个成功的案例。
🎯 应用场景
该研究成果可广泛应用于历史社会学、社会网络分析、社会融合研究等领域。通过对历史档案中的社会活动和组织进行分类,可以深入了解社会结构、社会变迁以及个体在社会中的角色。此外,该方法还可以推广到其他类型的文本数据,例如社交媒体数据、新闻报道等,为社会科学研究提供新的工具和视角。
📄 摘要(原文)
Digitized historical archives make it possible to study everyday social life on a large scale, but the information extracted directly from text often does not directly allow one to answer the research questions posed by historians or sociologists in a quantitative manner. We address this problem in a large collection of Finnish World War II Karelian evacuee family interviews. Prior work extracted more than 350K mentions of leisure time activities and organizational memberships from these interviews, yielding 71K unique activity and organization names -- far too many to analyze directly. We develop a categorization framework that captures key aspects of participation (the kind of activity/organization, how social it typically is, how regularly it happens, and how physically demanding it is). We annotate a gold-standard set to allow for a reliable evaluation, and then test whether large language models can apply the same schema at scale. Using a simple voting approach across multiple model runs, we find that an open-weight LLM can closely match expert judgments. Finally, we apply the method to label the 350K entities, producing a structured resource for downstream studies of social integration and related outcomes.