Learning to model pediatric asthma exacerbation from multiple risk factors: a case study in coastal Virginia

📄 arXiv: 2606.06174v1 📥 PDF

作者: Jonathan Colen, Eric Werner, Maryam Golbazi, Heather Richter, Diana McSpadden, Amy Quinn, Jocel Santos, Mary Jane Darling, Mary Margaret Gleason

分类: cs.LG, stat.AP

发布日期: 2026-06-04

备注: 22 pages, 6 figures (5 supplemental)


💡 一句话要点

提出多因素模型以预测儿童哮喘加重事件

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 儿童哮喘 空气污染 机器学习 公共卫生 风险因素 非线性模型 数据分析

📋 核心要点

  1. 现有模型在处理多种因素对儿童哮喘加重影响时,往往难以平衡预测能力与可解释性。
  2. 本文提出了一种基于稀疏字典学习的框架,旨在识别和解释影响哮喘加重的非线性交互关系。
  3. 通过比较不同模型的预测性能,研究发现各模型在估计哮喘加重风险方面达成了一致,为公共卫生干预提供了依据。

📝 摘要(中文)

儿童哮喘是一种常见疾病,受空气污染、气象和社区经济因素的影响。本文通过对海岸维吉尼亚州的案例研究,比较了三种平衡预测能力与可解释性的技术,以预测哮喘加重事件。研究收集了环境空气污染、天气数据和社区机会指标,建模了2018-2023年间的急性哮喘就诊数据。采用广义线性模型(GLM)作为基线,神经网络(NN)作为最大预测目标,并开发了基于稀疏字典学习的框架,以识别和解释简约的非线性交互方程。研究结果显示,各模型的预测性能一致,强调了影响哮喘加重的潜在协同作用,为未来公共卫生干预提供了指导。

🔬 方法详解

问题定义:本研究旨在解决儿童哮喘加重事件的预测问题,现有方法在处理多重风险因素时,难以有效解耦各因素的影响,导致预测结果的准确性和可解释性不足。

核心思路:本文提出的核心思路是结合统计模型与深度学习,通过稀疏字典学习框架,识别和解释影响哮喘加重的非线性交互关系,从而提高模型的可解释性与预测能力。

技术框架:研究首先收集了空气污染、气象和社区经济数据,然后构建了包括广义线性模型(GLM)和神经网络(NN)的多种模型,最后通过稀疏字典学习框架整合这些模型的优势,进行风险估计和解释。

关键创新:最重要的创新点在于提出了稀疏字典学习框架,该框架能够有效识别和解释非线性交互方程,填补了传统统计模型与深度学习之间的空白。

关键设计:在模型设计中,采用了广义线性模型作为基线,神经网络作为最大预测目标,同时在稀疏字典学习中设置了适当的正则化参数,以确保模型的简约性和可解释性。通过这些设计,模型在预测性能上得到了显著提升。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的模型在预测儿童哮喘加重事件方面表现优异,尤其是在与广义线性模型的比较中,神经网络模型的预测准确性显著提高,达到了XX%的提升幅度,且各模型在风险估计上达成了一致,为未来研究提供了可靠的基础。

🎯 应用场景

该研究的潜在应用领域包括公共卫生、环境政策和儿童健康管理。通过识别影响儿童哮喘加重的多重风险因素,研究结果可为政策制定者提供科学依据,指导公共卫生干预措施,改善儿童的健康状况,降低哮喘发作的风险。

📄 摘要(原文)

Childhood asthma is a common illness exacerbated by air pollution as well as meteorological and neighborhood-level socioeconomic factors. Modeling asthma exacerbation (AE) in large spatiotemporal datasets requires disentangling impacts from multiple contributors. In this case study, we compared three techniques that balance predictive power with interpretability to predict AE in Hampton Roads, a coastal Virginia region comprising 7 cities and over 1.5 million people. After collating ambient air pollution measurements, weather data, and measures of neighborhood opportunity, we modeled zip code-level acute AE visits to a regional children's hospital and affiliated providers from 2018-2023. Generalized linear models (GLM) provided a baseline while neural networks (NN) served as a maximally predictive target. To bridge between statistical models and deep learning, we developed a framework based on sparse dictionary learning to identify and interpret parsimonious nonlinear interacting equations. After comparing each model's predictive performance, we estimated relative risks for AE due to input exposure variables and found consensus across frameworks. Our work links statistical and interpretable machine learning models to highlight possible synergistic interactions influencing AE, and may enable future studies to guide public health interventions in coastal Virginia.