Labeling Free-text Data using Language Model Ensembles
作者: Jiaxing Qiu, Dongliang Guo, Natalie Papini, Noelle Peace, Hannah F. Fitterman-Harris, Cheri A. Levinson, Tom Hartvigsen, Teague R. Henry
分类: cs.CL
发布日期: 2025-01-14 (更新: 2025-09-26)
💡 一句话要点
提出基于语言模型集成的方法,用于在隐私约束下标注自由文本数据
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自由文本标注 语言模型集成 隐私保护 心理学研究 自然语言处理
📋 核心要点
- 人工标注自由文本数据成本高昂,而直接使用闭源LLM进行标注存在隐私问题,限制了其在敏感数据上的应用。
- 该论文提出了一种基于本地部署的开源LLM集成框架,通过利用不同LLM的异质性来提高标注准确性。
- 实验表明,该集成方法在预测人工标注方面实现了最高的准确率和最佳的精确率-召回率平衡。
📝 摘要(中文)
心理学研究中常用的自由文本数据蕴含着丰富的定性见解,但人工标注耗时耗力。虽然大型语言模型(LLM)在语言处理方面表现出色,但依赖闭源LLM的标注技术在未经明确同意的情况下无法直接应用于自由文本数据。本研究提出了一种组装本地可部署LLM的框架,以增强在隐私约束下自由文本数据中预定主题的标注。类似于多个人工标注员,该框架利用了不同开源LLM的异质性。该集成方法旨在平衡LLM之间的共识和分歧,并由一种相关性评分方法指导,该方法利用主题描述和LLM推理之间的嵌入距离。我们使用来自饮食失调相关论坛的公开Reddit数据以及来自饮食失调患者的自由文本回复评估了该集成方法,两者都辅以人工标注。
🔬 方法详解
问题定义:论文旨在解决在隐私约束下,如何高效、准确地标注自由文本数据中特定主题的问题。现有方法依赖人工标注,成本高昂且耗时。直接使用闭源LLM进行标注,则存在数据隐私泄露的风险,尤其是在处理敏感的心理学研究数据时。
核心思路:论文的核心思路是利用多个本地部署的开源LLM构建一个集成系统。通过集成不同LLM的标注结果,可以利用它们各自的优势,弥补彼此的不足,从而提高整体的标注准确性和鲁棒性。这种方法类似于多个人工标注员协同工作,可以减少单个标注员的主观偏差。
技术框架:该框架主要包含以下几个阶段:1) LLM选择与部署:选择多个具有代表性的开源LLM,并在本地环境中部署。2) 主题描述:为每个待标注的主题提供清晰、明确的描述。3) LLM标注:每个LLM独立地对自由文本数据进行标注,并给出二元标签(相关/不相关)。4) 相关性评分:计算主题描述和LLM推理之间的嵌入距离,作为LLM标注结果的相关性评分。5) 集成决策:基于LLM的标注结果和相关性评分,采用某种集成策略(例如,加权投票)来生成最终的标注结果。
关键创新:该论文的关键创新在于提出了一种基于相关性评分的LLM集成方法,用于在隐私约束下标注自由文本数据。与直接使用单个LLM相比,该方法可以更好地利用不同LLM的异质性,提高标注准确性和鲁棒性。此外,该方法避免了使用闭源LLM,从而保护了数据的隐私。
关键设计:论文的关键设计包括:1) 相关性评分方法:使用嵌入距离来衡量主题描述和LLM推理之间的相关性,可以有效地缓解LLM标注结果的异质性。2) 集成策略:可以采用不同的集成策略,例如加权投票,其中权重可以根据LLM的相关性评分进行调整。3) LLM选择:选择具有不同架构、训练数据和推理能力的LLM,可以增加集成的多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,集成的LLM在预测人工标注方面优于单个LLM,实现了最高的准确率和最佳的精确率-召回率平衡。此外,相关性评分在不同LLM之间表现出比二元标签更高的一致性,表明该方法有效地缓解了LLM标注的异质性。具体性能数据未知,但结论表明该集成方法具有显著优势。
🎯 应用场景
该研究成果可广泛应用于心理学、医学、社会科学等领域,用于分析自由文本数据,例如患者访谈记录、社交媒体帖子、调查问卷回复等。该方法可以在保护数据隐私的前提下,自动识别和标注研究人员感兴趣的主题,从而提高研究效率和质量。未来,该方法还可以扩展到其他类型的数据和任务,例如图像标注、语音识别等。
📄 摘要(原文)
Free-text responses are commonly collected in psychological studies, providing rich qualitative insights that quantitative measures may not capture. Labeling curated topics of research interest in free-text data by multiple trained human coders is typically labor-intensive and time-consuming. Though large language models (LLMs) excel in language processing, LLM-assisted labeling techniques relying on closed-source LLMs cannot be directly applied to free-text data, without explicit consent for external use. In this study, we propose a framework of assembling locally-deployable LLMs to enhance the labeling of predetermined topics in free-text data under privacy constraints. Analogous to annotation by multiple human raters, this framework leverages the heterogeneity of diverse open-source LLMs. The ensemble approach seeks a balance between the agreement and disagreement across LLMs, guided by a relevancy scoring methodology that utilizes embedding distances between topic descriptions and LLMs' reasoning. We evaluated the ensemble approach using both publicly accessible Reddit data from eating disorder related forums, and free-text responses from eating disorder patients, both complemented by human annotations. We found that: (1) there is heterogeneity in the performance of labeling among same-sized LLMs, with some showing low sensitivity but high precision, while others exhibit high sensitivity but low precision. (2) Compared to individual LLMs, the ensemble of LLMs achieved the highest accuracy and optimal precision-sensitivity trade-off in predicting human annotations. (3) The relevancy scores across LLMs showed greater agreement than dichotomous labels, indicating that the relevancy scoring method effectively mitigates the heterogeneity in LLMs' labeling.