The Book of Life approach: Enabling richness and scale for life course research

📄 arXiv: 2507.03027v1 📥 PDF

作者: Mark D. Verhagen, Benedikt Stroebl, Tiffany Liu, Lydia T. Liu, Matthew J. Salganik

分类: cs.CL

发布日期: 2025-07-02

备注: 25 pages, 4 figures


💡 一句话要点

提出Book of Life方法,融合复杂日志数据与LLM,实现大规模、多维度的人生轨迹研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生命历程研究 复杂日志数据 大型语言模型 文本表示 数据挖掘

📋 核心要点

  1. 传统生命历程研究面临定性方法样本小和定量方法数据稀疏的困境,难以兼顾研究的深度和广度。
  2. 论文提出Book of Life方法,将复杂日志数据转化为文本形式的人生轨迹,利用LLM进行分析,实现定性与定量的融合。
  3. 通过荷兰人口规模的注册数据,构建了超过1亿本生命之书,验证了该方法的可行性,并开源了相关工具包。

📝 摘要(中文)

一个多世纪以来,生命历程研究人员面临着两种主要方法之间的选择:定性方法分析丰富的数据,但受限于小样本;定量调查方法研究较大的人群,但牺牲了数据的丰富性以换取规模。 近期两项技术发展使我们能够设想一种混合方法,该方法结合了定性方法的深度和定量方法的规模。 第一个发展是“复杂日志数据”的稳定增长,这些行为数据是为了研究以外的目的而记录的,但可以被重新用于构建丰富的人们生活记录。 第二个发展是大型语言模型(LLM)的出现,它在纯文本上具有卓越的模式识别能力。 在本文中,我们朝着创建这种混合方法迈出了必要的一步,通过开发一种灵活的程序,将复杂日志数据转换为个人在多个领域、随时间推移以及在上下文中的生活轨迹的文本表示。 我们将这种数据表示形式称为“生命之书”。 我们通过编写超过 1 亿本涵盖生活各个方面的生命之书来说明我们方法的可行性,这些生命之书随时间推移并使用荷兰人口规模的注册数据置于社会背景中。 我们开源了生命之书工具包 (BOLT),并邀请研究界探索这种方法的许多潜在应用。

🔬 方法详解

问题定义:生命历程研究旨在理解个体生命轨迹的发展变化及其影响因素。传统方法要么依赖小样本的深度访谈,数据量小,难以推广;要么依赖大规模的问卷调查,数据维度单一,信息量不足。因此,如何在大规模人群中获取丰富、多维度的个体生命历程数据,是一个亟待解决的问题。

核心思路:论文的核心思路是将个体在不同领域(如教育、工作、家庭等)的复杂日志数据,转化为文本形式的“生命之书”。这种文本化的表示方式,既保留了原始数据的丰富性,又便于利用大型语言模型(LLM)进行分析和挖掘。通过LLM强大的模式识别能力,可以从海量的生命之书中提取出有价值的知识和规律。

技术框架:Book of Life方法的整体框架主要包括以下几个阶段:1) 数据收集:收集个体在不同领域的复杂日志数据,例如教育记录、工作经历、医疗记录等。2) 数据转换:将这些结构化的日志数据转化为文本形式的“生命之书”,每一本书代表一个人的生命轨迹。3) 模型分析:利用大型语言模型(LLM)对生命之书进行分析,例如进行主题建模、情感分析、因果推断等。4) 结果解释:将LLM的分析结果转化为可解释的知识,用于指导生命历程研究和政策制定。

关键创新:该方法最重要的创新点在于将复杂日志数据转化为文本形式,从而能够利用LLM强大的文本处理能力进行生命历程研究。与传统的统计方法相比,LLM能够捕捉到数据中更复杂、更微妙的模式和关系。此外,该方法还具有很强的可扩展性,可以处理大规模的数据集。

关键设计:在数据转换阶段,需要设计合理的文本生成策略,将不同类型的日志数据转化为连贯、自然的文本描述。例如,可以使用模板化的方法,将结构化的数据填充到预定义的句子中。此外,还需要考虑如何处理缺失数据和噪声数据,以保证生成文本的质量。在模型分析阶段,需要选择合适的LLM模型,并根据具体的任务进行微调。例如,可以使用BERT模型进行情感分析,使用GPT模型进行文本生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过荷兰人口规模的注册数据,构建了超过1亿本生命之书,验证了该方法的可行性。实验结果表明,该方法能够有效地提取个体生命轨迹中的关键信息,并发现隐藏在数据中的模式和规律。此外,论文还开源了Book of Life工具包 (BOLT),为研究人员提供了便利的工具和资源。

🎯 应用场景

Book of Life方法可应用于多个领域,如社会学、心理学、医学等。例如,可以用于研究教育经历对个人职业发展的影响,分析家庭环境对儿童心理健康的影响,预测疾病的发生和发展趋势。该方法还可以为政策制定者提供决策支持,例如制定更有效的教育政策、就业政策和社会保障政策。

📄 摘要(原文)

For over a century, life course researchers have faced a choice between two dominant methodological approaches: qualitative methods that analyze rich data but are constrained to small samples, and quantitative survey-based methods that study larger populations but sacrifice data richness for scale. Two recent technological developments now enable us to imagine a hybrid approach that combines some of the depth of the qualitative approach with the scale of quantitative methods. The first development is the steady rise of ''complex log data,'' behavioral data that is logged for purposes other than research but that can be repurposed to construct rich accounts of people's lives. The second is the emergence of large language models (LLMs) with exceptional pattern recognition capabilities on plain text. In this paper, we take a necessary step toward creating this hybrid approach by developing a flexible procedure to transform complex log data into a textual representation of an individual's life trajectory across multiple domains, over time, and in context. We call this data representation a ''book of life.'' We illustrate the feasibility of our approach by writing over 100 million books of life covering many different facets of life, over time and placed in social context using Dutch population-scale registry data. We open source the book of life toolkit (BOLT), and invite the research community to explore the many potential applications of this approach.