Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search
作者: Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, Zahra Shamsi
分类: cs.AI
发布日期: 2026-05-15
💡 一句话要点
提出基于LLM引导树搜索的自主多病原体疾病预测系统,克服人工建模瓶颈。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 传染病预测 大型语言模型 树搜索 自动化建模 流行病学 公共卫生 模型集成
📋 核心要点
- 现有传染病预测依赖人工模型构建,耗时费力,难以扩展到新的病原体或更细粒度的地理区域。
- 利用LLM引导的树搜索,自主生成、评估和优化预测模型,无需人工干预,提升模型开发效率。
- 在2025-2026年呼吸道疾病季的实时评估中,该系统生成的模型集成性能优于人工构建的CDC模型。
📝 摘要(中文)
传染病概率预测对公共卫生至关重要,但依赖于专家建模团队耗时的人工模型管理。这种定制开发限制了向精细地理分辨率或新兴病原体的扩展。本文提出了一个自主系统,该系统使用大型语言模型(LLM)引导的树搜索来迭代生成、评估和优化可执行的预测软件。在2025-2026年美国呼吸道疾病季节的完全前瞻性、实时评估中,该系统自主发现了用于流感、COVID-19和呼吸道合胞病毒(RSV)的方法多样的模型。聚合这些机器生成的模型产生了一个集成,该集成始终匹配或优于黄金标准、人工管理的疾病控制与预防中心(CDC)中心集成。该系统成功地应对了RSV的数据稀缺“冷启动”场景。此外,受控的回顾性消融实验表明,优化对数尺度距离度量可以防止奖励攻击,而自动循环判断确保了对复杂科学理论的结构保真度。通过自主地将流行病学理论转化为准确、透明的代码,该框架克服了建模劳动瓶颈,从而能够以前所未有的规模快速部署专家级疾病预测。
🔬 方法详解
问题定义:现有传染病预测方法依赖于人工构建和维护模型,这需要大量的专家知识和时间投入。尤其是在面对新的病原体或需要更精细的地理分辨率时,人工建模的瓶颈更加明显。现有的方法难以快速适应变化,并且缺乏透明性和可解释性。
核心思路:本文的核心思路是利用大型语言模型(LLM)的强大代码生成和理解能力,结合树搜索算法,构建一个自主的预测模型生成和优化系统。该系统能够自动探索不同的模型结构和参数配置,并通过实时评估和反馈进行迭代优化,从而在没有人为干预的情况下,生成高性能的预测模型。
技术框架:该系统的整体框架包含以下几个主要模块:1) LLM驱动的模型生成器:利用LLM生成候选的预测模型代码。2) 模型评估器:使用历史数据对生成的模型进行评估,并计算模型的性能指标。3) 树搜索算法:利用树搜索算法探索不同的模型结构和参数配置,并根据模型评估器的反馈进行迭代优化。4) 集成模块:将多个表现良好的模型集成起来,以提高预测的准确性和鲁棒性。5) 自动裁判模块:确保生成的模型符合已知的流行病学理论,避免生成不合理的模型。
关键创新:该方法最重要的创新点在于将LLM的代码生成能力与树搜索算法相结合,实现了一个完全自主的预测模型生成和优化系统。与传统的人工建模方法相比,该方法能够显著提高模型开发的效率,并且能够自动探索不同的模型结构和参数配置,从而发现人工难以发现的优秀模型。此外,该方法还引入了自动裁判模块,确保生成的模型符合已知的科学理论,提高了模型的可信度。
关键设计:在关键设计方面,该方法采用了对数尺度距离度量来防止奖励攻击,避免模型过度优化某些特定的指标而忽略了整体的预测性能。此外,该方法还设计了一个自动裁判模块,该模块能够根据已知的流行病学理论对生成的模型进行评估,并对不符合理论的模型进行惩罚。在树搜索算法方面,该方法采用了蒙特卡洛树搜索(MCTS)算法,并对MCTS算法进行了改进,以提高搜索的效率。
📊 实验亮点
该系统在2025-2026年美国呼吸道疾病季节的实时评估中,生成的模型集成性能始终匹配或优于人工构建的CDC模型。在RSV的“冷启动”场景中,该系统也表现出色,成功克服了数据稀缺的挑战。消融实验表明,优化对数尺度距离度量和引入自动裁判模块能够有效提高模型的性能和可信度。
🎯 应用场景
该研究成果可广泛应用于传染病预测、公共卫生决策、疫情风险评估等领域。通过自动化模型生成和优化,能够快速应对新发传染病,提高预测精度,为公共卫生干预提供更可靠的依据。该系统还可扩展到其他领域的预测问题,例如金融风险预测、气候变化预测等。
📄 摘要(原文)
Probabilistic forecasting of infectious diseases is crucial for public health but relies on labor-intensive manual model curation by expert modeling teams. This bespoke development bottlenecks scalability to granular geographic resolutions or emerging pathogens. Here, we present an autonomous system using Large Language Model (LLM)-guided tree search to iteratively generate, evaluate, and optimize executable forecasting software. In a fully prospective, real-time evaluation during the 2025-2026 US respiratory season, the system autonomously discovered methodologically diverse models for influenza, COVID-19, and respiratory syncytial virus (RSV). Aggregating these machine-generated models yielded an ensemble that consistently matched or outperformed the gold-standard, human-curated Centers for Disease Control and Prevention (CDC) hub ensembles out-of-sample. The system successfully navigated data-scarce "cold start" scenarios for RSV. Moreover, controlled retrospective ablations revealed that optimizing log-scale distance metrics prevents reward hacking, while an automated judge-in-the-loop ensures structural fidelity to complex scientific theories. By autonomously translating epidemiological theory into accurate, transparent code, this framework overcomes the modeling labor bottleneck, enabling rapid deployment of expert-level disease forecasting at unprecedented scales.