AutoMedPrompt: A New Framework for Optimizing LLM Medical Prompts Using Textual Gradients

📄 arXiv: 2502.15944v1 📥 PDF

作者: Sean Wu, Michael Koo, Fabien Scalzo, Ira Kurtz

分类: cs.CL

发布日期: 2025-02-21

备注: 14 pages


💡 一句话要点

AutoMedPrompt:利用文本梯度优化LLM医学提示,显著提升医学问答性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学问答 大型语言模型 提示工程 文本梯度 自动优化

📋 核心要点

  1. 现有医学LLM依赖大量微调或复杂提示工程,存在泛化性差、引入无关信息等问题。
  2. AutoMedPrompt利用文本梯度自动优化系统提示,引导LLM进行医学相关推理,无需微调。
  3. 实验表明,AutoMedPrompt在多个医学QA基准上超越了现有开源和闭源LLM,达到SOTA。

📝 摘要(中文)

大型语言模型(LLMs)在医学等领域展现出日益精湛的性能。传统构建专业LLM的方法需要在大型数据集上进行广泛的微调和训练。最近,提示工程(而非微调)显示出提升通用基础模型性能的潜力。然而,诸如思维链(CoT)之类的提示方法可能不适用于所有子专业,并且k-shot方法可能会将不相关的token引入上下文空间。我们提出了AutoMedPrompt,它探索使用文本梯度通过系统提示优化来引发医学相关的推理。AutoMedPrompt利用TextGrad的文本自动微分来提高通用基础LLM的能力。我们使用包括MedQA、PubMedQA和肾脏病亚专业NephSAP在内的多个QA基准,在Llama 3(一个开源LLM)上评估了AutoMedPrompt。结果表明,使用文本梯度进行提示优于以前的开源LLM方法,并超越了GPT-4、Claude 3 Opus和Med-PaLM 2等专有模型。AutoMedPrompt在PubMedQA上实现了82.6%的准确率,创下了新的state-of-the-art(SOTA)性能,同时在MedQA(77.7%)和NephSAP(63.8%)上优于以前的开源模型提示策略。

🔬 方法详解

问题定义:论文旨在解决如何高效地提升通用大型语言模型(LLMs)在医学领域的问答性能,而无需进行耗时的微调。现有方法,如思维链(CoT)和k-shot学习,存在对特定子专业适应性差,以及引入无关信息干扰模型推理的问题。这些问题限制了LLMs在医学领域的广泛应用。

核心思路:AutoMedPrompt的核心思路是利用文本梯度来自动优化LLM的系统提示。通过计算提示文本对模型输出的影响,并利用梯度信息迭代地改进提示,从而引导LLM进行更准确、更相关的医学推理。这种方法避免了手动设计提示的繁琐和主观性,同时也减少了无关信息对模型的影响。

技术框架:AutoMedPrompt的整体框架包括以下几个主要步骤:1) 初始化系统提示;2) 使用TextGrad计算提示文本的梯度;3) 根据梯度信息更新提示文本;4) 使用更新后的提示进行医学问答;5) 评估模型性能;6) 重复步骤2-5,直到达到预定的迭代次数或性能收敛。该框架的核心是TextGrad,它允许计算文本的梯度,从而实现对提示的自动优化。

关键创新:AutoMedPrompt最重要的技术创新点在于将文本梯度应用于LLM的提示优化。与传统的提示工程方法相比,AutoMedPrompt能够自动地、定量地评估和改进提示,从而避免了人工设计的局限性。此外,AutoMedPrompt还能够根据不同的医学领域和任务,自适应地调整提示,从而提高模型的泛化能力。

关键设计:AutoMedPrompt的关键设计包括:1) 使用TextGrad进行文本梯度计算,具体实现细节未知;2) 提示更新策略,如何根据梯度信息调整提示文本,具体算法未知;3) 评估指标的选择,用于衡量模型在医学问答任务上的性能,例如准确率、F1值等;4) 迭代次数和收敛条件的设置,用于控制提示优化的过程。

🖼️ 关键图片

fig_0

📊 实验亮点

AutoMedPrompt在PubMedQA上取得了82.6%的准确率,刷新了SOTA记录。同时,在MedQA和NephSAP等医学QA基准上,AutoMedPrompt也显著优于现有的开源LLM提示策略,甚至超越了GPT-4、Claude 3 Opus和Med-PaLM 2等闭源模型,证明了其在医学领域的强大性能。

🎯 应用场景

AutoMedPrompt具有广泛的应用前景,可用于构建智能医学问答系统、辅助医生进行诊断和治疗决策、提供个性化的健康咨询服务等。该研究成果有助于提升LLMs在医学领域的应用水平,促进医疗智能化发展,并最终改善患者的健康状况。

📄 摘要(原文)

Large language models (LLMs) have demonstrated increasingly sophisticated performance in medical and other fields of knowledge. Traditional methods of creating specialist LLMs require extensive fine-tuning and training of models on large datasets. Recently, prompt engineering, instead of fine-tuning, has shown potential to boost the performance of general foundation models. However, prompting methods such as chain-of-thought (CoT) may not be suitable for all subspecialty, and k-shot approaches may introduce irrelevant tokens into the context space. We present AutoMedPrompt, which explores the use of textual gradients to elicit medically relevant reasoning through system prompt optimization. AutoMedPrompt leverages TextGrad's automatic differentiation via text to improve the ability of general foundation LLMs. We evaluated AutoMedPrompt on Llama 3, an open-source LLM, using several QA benchmarks, including MedQA, PubMedQA, and the nephrology subspecialty-specific NephSAP. Our results show that prompting with textual gradients outperforms previous methods on open-source LLMs and surpasses proprietary models such as GPT-4, Claude 3 Opus, and Med-PaLM 2. AutoMedPrompt sets a new state-of-the-art (SOTA) performance on PubMedQA with an accuracy of 82.6$\%$, while also outperforming previous prompting strategies on open-sourced models for MedQA (77.7$\%$) and NephSAP (63.8$\%$).