Measurement as Bricolage: Examining How Data Scientists Construct Target Variables for Predictive Modeling Tasks
作者: Luke Guerdan, Devansh Saxena, Stevie Chancellor, Zhiwei Steven Wu, Kenneth Holstein
分类: cs.HC, cs.CY, cs.LG
发布日期: 2025-07-03 (更新: 2025-08-19)
备注: CSCW 2025
💡 一句话要点
研究数据科学家如何通过拼凑法构建预测模型的目标变量,以解决模糊概念建模问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 目标变量构建 预测建模 数据科学 拼凑法 定性研究
📋 核心要点
- 现有方法难以将模糊概念转化为可用于预测建模的具体目标变量,阻碍了相关任务的有效开展。
- 该研究揭示数据科学家如何通过“拼凑法”,创造性地利用有限数据构建满足特定标准的目标变量。
- 通过访谈教育和医疗领域的数据科学家,总结了目标变量构建的关键标准和问题重构策略。
📝 摘要(中文)
数据科学家经常构建涉及模糊、难以定义概念的预测建模任务,例如学生写作的“真实性”或患者的“医疗需求”。然而,数据科学家将模糊概念转化为具体的代理目标变量的过程仍然知之甚少。我们访谈了教育(N=8)和医疗保健(N=7)领域的15位数据科学家,以了解他们如何构建预测建模任务的目标变量。我们的研究结果表明,数据科学家通过一种拼凑的过程来构建目标变量,他们使用创造性和务实的方法来利用手头有限的数据。数据科学家试图通过拼凑法满足目标变量的五个主要标准:有效性、简单性、可预测性、可移植性和资源需求。为了实现这一目标,数据科学家自适应地应用问题(重新)制定策略,例如,当第一个候选目标变量未能满足某些标准(例如,可预测性)时,将其替换为另一个候选目标变量,或者将多个结果组合成一个目标变量,以捕获更全面的建模目标。基于我们的发现,我们提出了未来HCI、CSCW和ML研究的机会,以更好地支持目标变量构建的艺术和科学。
🔬 方法详解
问题定义:论文旨在理解数据科学家在构建预测模型时,如何将模糊、难以直接量化的概念(如“写作的真实性”、“医疗需求”)转化为可用的目标变量。现有方法缺乏对这一过程的深入理解,导致目标变量构建缺乏系统性指导,影响模型效果。
核心思路:论文的核心思路是将目标变量的构建过程视为一种“拼凑法”(Bricolage)。数据科学家在数据有限的情况下,需要创造性地、务实地利用现有资源,通过不断尝试和调整,构建满足特定标准的目标变量。
技术框架:该研究采用定性研究方法,通过访谈教育和医疗领域的15位数据科学家,收集他们构建目标变量的经验和策略。研究人员对访谈数据进行分析,识别出目标变量构建的关键标准(有效性、简单性、可预测性、可移植性和资源需求)以及问题重构策略。
关键创新:该研究的创新在于提出了“拼凑法”这一概念来描述目标变量的构建过程,强调了数据科学家在数据受限情况下进行创造性问题解决的重要性。与传统机器学习研究关注模型算法不同,该研究关注数据准备阶段的目标变量构建,填补了该领域的空白。
关键设计:研究的关键设计在于访谈问题的设计,问题围绕数据科学家如何选择、评估和调整目标变量展开,旨在深入了解他们的决策过程和考虑因素。此外,研究人员还关注数据科学家如何处理数据质量问题以及如何平衡不同目标之间的冲突。
🖼️ 关键图片
📊 实验亮点
该研究通过访谈发现,数据科学家在构建目标变量时,会考虑有效性、简单性、可预测性、可移植性和资源需求五个主要标准。他们会根据实际情况,灵活地调整目标变量的定义,例如,当一个目标变量的可预测性较差时,会尝试替换为另一个更易于预测的变量。研究还发现,数据科学家经常将多个结果组合成一个目标变量,以更全面地捕捉建模目标。
🎯 应用场景
该研究的成果可以应用于自动化机器学习(AutoML)领域,帮助系统自动选择和构建合适的目标变量。此外,该研究还可以为数据科学教育提供指导,帮助学生更好地理解目标变量构建的复杂性和挑战。该研究对于提高预测模型的有效性和可解释性具有重要意义。
📄 摘要(原文)
Data scientists often formulate predictive modeling tasks involving fuzzy, hard-to-define concepts, such as the "authenticity" of student writing or the "healthcare need" of a patient. Yet the process by which data scientists translate fuzzy concepts into a concrete, proxy target variable remains poorly understood. We interview fifteen data scientists in education (N=8) and healthcare (N=7) to understand how they construct target variables for predictive modeling tasks. Our findings suggest that data scientists construct target variables through a bricolage process, in which they use creative and pragmatic approaches to make do with the limited data at hand. Data scientists attempt to satisfy five major criteria for a target variable through bricolage: validity, simplicity, predictability, portability, and resource requirements. To achieve this, data scientists adaptively apply problem (re)formulation strategies, such as swapping out one candidate target variable for another when the first fails to meet certain criteria (e.g., predictability), or composing multiple outcomes into a single target variable to capture a more holistic set of modeling objectives. Based on our findings, we present opportunities for future HCI, CSCW, and ML research to better support the art and science of target variable construction.