Prior-informed optimization of treatment recommendation via bandit algorithms trained on large language model-processed historical records

📄 arXiv: 2510.19014v1 📥 PDF

作者: Saman Nessari, Ali Bozorgi-Amiri

分类: cs.LG, cs.AI

发布日期: 2025-10-21


💡 一句话要点

提出基于大语言模型处理历史记录的先验知识优化治疗推荐的Bandit算法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化医疗 治疗推荐 大型语言模型 生成对抗网络 上下文Bandit算法 反事实推断 在线学习

📋 核心要点

  1. 现有医疗方法忽略个体差异,导致治疗效果不佳,亟需个性化方案。
  2. 利用LLM处理病历,结合CTGAN生成数据,T-learner预测疗效,Bandit算法优化推荐。
  3. 实验表明,该方法在结肠癌治疗推荐中表现优异,显著提升了平均奖励。

📝 摘要(中文)

当前医疗实践依赖于标准化的治疗框架和经验方法,忽略了个体患者的差异,导致次优的健康结果。本文开发了一个综合系统,集成了大型语言模型(LLM)、条件表格生成对抗网络(CTGAN)、T-learner反事实模型和上下文Bandit方法,以提供定制化的、数据驱动的临床建议。该方法利用LLM将非结构化医疗叙述处理成结构化数据集(准确率93.2%),使用CTGAN生成逼真的合成患者数据(通过双样本验证准确率55%),部署T-learner来预测患者特定的治疗反应(准确率84.3%),并集成先验知识的上下文Bandit来增强在线治疗选择,通过有效地平衡新可能性的探索与现有知识的利用。在III期结肠癌数据集上的测试表明,我们的KernelUCB方法在5000轮中获得了0.60-0.61的平均奖励分数,超过了其他参考方法。该综合系统克服了在线学习环境中的冷启动限制,提高了计算效率,并构成了在适应特定患者特征的个体化医疗方面取得的显著进展。

🔬 方法详解

问题定义:现有医疗实践中,标准化的治疗方案忽略了患者个体差异,导致治疗效果不佳。在线学习环境下的治疗推荐系统面临冷启动问题,即在缺乏足够数据的情况下难以做出有效的推荐。此外,如何有效地平衡探索新的治疗方案和利用已有的知识也是一个挑战。

核心思路:本文的核心思路是利用大型语言模型(LLM)从非结构化的医疗记录中提取有用的信息,并将其转化为结构化的数据。然后,利用条件表格生成对抗网络(CTGAN)生成合成的患者数据,以解决数据稀疏的问题。接着,使用T-learner来预测患者对不同治疗方案的反应。最后,利用先验知识的上下文Bandit算法来优化治疗推荐,从而在探索和利用之间取得平衡。

技术框架:该系统的整体框架包括以下几个主要模块:1) 利用LLM处理非结构化医疗叙述,提取结构化数据;2) 使用CTGAN生成合成患者数据,增强数据集;3) 部署T-learner模型,预测患者对不同治疗方案的反应;4) 集成先验知识的上下文Bandit算法,进行在线治疗推荐。

关键创新:该方法最重要的创新点在于将LLM、CTGAN、T-learner和上下文Bandit算法集成到一个完整的系统中,从而实现了个性化的治疗推荐。此外,利用LLM处理非结构化数据,并利用CTGAN生成合成数据,有效地解决了数据稀疏和冷启动的问题。先验知识的引入使得Bandit算法能够更快地收敛到最优策略。

关键设计:LLM使用领域相关的预训练模型进行微调,以提高信息提取的准确率。CTGAN使用条件信息来生成更逼真的合成数据。T-learner使用两个独立的模型来预测治疗组和对照组的结果。上下文Bandit算法使用KernelUCB算法,并结合先验知识来指导探索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在III期结肠癌数据集上表现优异。KernelUCB方法在5000轮的测试中获得了0.60-0.61的平均奖励分数,显著优于其他基线方法。LLM在处理非结构化医疗叙述时达到了93.2%的准确率,CTGAN生成合成数据的准确率为55%(通过双样本验证),T-learner预测患者特定治疗反应的准确率为84.3%。

🎯 应用场景

该研究成果可应用于多种疾病的个性化治疗推荐,尤其是在数据稀疏或存在冷启动问题的场景下。通过整合患者的病历信息、基因数据和生活习惯等,可以为医生提供更精准的治疗建议,从而提高治疗效果,改善患者的生活质量。未来,该方法有望推广到远程医疗、智能健康管理等领域。

📄 摘要(原文)

Current medical practice depends on standardized treatment frameworks and empirical methodologies that neglect individual patient variations, leading to suboptimal health outcomes. We develop a comprehensive system integrating Large Language Models (LLMs), Conditional Tabular Generative Adversarial Networks (CTGAN), T-learner counterfactual models, and contextual bandit approaches to provide customized, data-informed clinical recommendations. The approach utilizes LLMs to process unstructured medical narratives into structured datasets (93.2% accuracy), uses CTGANs to produce realistic synthetic patient data (55% accuracy via two-sample verification), deploys T-learners to forecast patient-specific treatment responses (84.3% accuracy), and integrates prior-informed contextual bandits to enhance online therapeutic selection by effectively balancing exploration of new possibilities with exploitation of existing knowledge. Testing on stage III colon cancer datasets revealed that our KernelUCB approach obtained 0.60-0.61 average reward scores across 5,000 rounds, exceeding other reference methods. This comprehensive system overcomes cold-start limitations in online learning environments, improves computational effectiveness, and constitutes notable progress toward individualized medicine adapted to specific patient characteristics.