Automated stereotactic radiosurgery planning using a human-in-the-loop reasoning large language model agent

作者: Humza Nusrat, Luke Francisco, Bing Luo, Hassan Bagher-Ebadian, Joshua Kim, Karen Chin-Snyder, Salim Siddiqui, Mira Shah, Eric Mellon, Mohammad Ghassemi, Anthony Doemer, Benjamin Movsas, Kundan Thind

分类: cs.AI, cs.CL, cs.HC

发布日期: 2025-12-23

💡 一句话要点

SAGE：基于人机协同推理的大语言模型用于自动化立体定向放射外科计划

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 立体定向放射外科 自动化计划 大语言模型 思维链推理 人机协同 剂量学 透明AI

📋 核心要点

传统SRS计划制定依赖人工，耗时且易受经验影响，黑盒AI缺乏透明度限制了临床应用。
提出SAGE，一种基于大语言模型（LLM）的智能体，通过思维链推理实现自动化SRS治疗计划。
实验表明，SAGE在剂量学上与人工计划员相当，并能降低耳蜗剂量，同时提供可审计的优化过程。

📝 摘要（中文）

立体定向放射外科(SRS)需要在关键结构周围进行精确的剂量塑形，但黑盒AI系统由于缺乏透明性而限制了临床应用。本文在一个回顾性队列中测试了思维链推理是否能改善智能体规划，该队列包含41例接受18Gy单次分割SRS治疗的脑转移患者。我们开发了SAGE（用于生成剂量专业知识的安全代理），这是一个基于LLM的规划代理，用于自动化SRS治疗计划。两种变体为每个病例生成计划：一种使用非推理模型，一种使用推理模型。相对于人工计划员，推理变体在主要终点（PTV覆盖率、最大剂量、一致性指数、梯度指数；所有p > 0.21）上显示出可比的计划剂量学，同时将耳蜗剂量降低到人工基线以下（p = 0.022）。当提示改善一致性时，推理模型表现出系统的规划行为，包括前瞻性约束验证（457个实例）和权衡考虑（609个实例），而标准模型没有表现出这些审议过程（分别为0和7个实例）。内容分析表明，约束验证和因果解释集中在推理代理中。优化轨迹可作为可审计的日志，为透明的自动化规划提供了一条途径。

🔬 方法详解

问题定义：立体定向放射外科(SRS)治疗计划需要精确控制剂量分布，以确保肿瘤得到充分照射，同时保护周围的关键器官。然而，现有的自动化计划方法，特别是基于深度学习的黑盒模型，缺乏透明性和可解释性，导致临床医生难以信任和采纳。此外，人工计划制定过程耗时且依赖于经验，效率较低。

核心思路：本文的核心思路是利用大语言模型（LLM）的推理能力，模拟人类专家制定SRS计划的过程。通过思维链（Chain-of-Thought）推理，LLM可以逐步分析问题、验证约束、权衡利弊，并生成可解释的计划。这种方法旨在提高自动化计划的透明度和可信度，同时降低对人工干预的依赖。

技术框架：SAGE (Secure Agent for Generative Dose Expertise) 的整体框架包含以下几个主要模块：1) LLM推理引擎：负责接收患者信息和治疗目标，进行思维链推理，生成计划调整建议。2) 剂量计算引擎：根据LLM的建议，调整治疗计划参数，并计算剂量分布。3) 约束验证模块：检查剂量分布是否满足临床约束，例如PTV覆盖率、OAR剂量限制等。4) 优化循环：LLM、剂量计算引擎和约束验证模块在一个循环中迭代，直到找到满足所有约束的最优计划。

关键创新：SAGE的关键创新在于将大语言模型的推理能力与传统的剂量计算引擎相结合，实现了一种透明、可解释的自动化SRS计划制定方法。与传统的黑盒AI模型不同，SAGE可以提供每一步决策的理由，并允许临床医生审查和修改计划。此外，SAGE还能够进行前瞻性约束验证和权衡考虑，从而生成更优的治疗计划。

关键设计：SAGE的关键设计包括：1) 使用思维链提示工程，引导LLM进行逐步推理。2) 设计了专门的提示模板，用于约束验证和权衡考虑。3) 使用可审计的优化轨迹，记录每一步决策的过程和结果。4) 采用了安全机制，确保患者数据的隐私和安全。

🖼️ 关键图片

📊 实验亮点

SAGE的推理模型在主要剂量学指标（PTV覆盖率、最大剂量、一致性指数、梯度指数）上与人工计划员相当（p > 0.21），同时显著降低了耳蜗剂量（p = 0.022）。在改善一致性的提示下，推理模型展现出457个约束验证实例和609个权衡考虑实例，而标准模型几乎没有这些行为（0和7个实例）。这些结果表明，SAGE的推理能力能够显著改善自动化计划的质量和透明度。

🎯 应用场景

该研究成果可应用于临床SRS治疗计划的自动化，提高计划制定效率，降低对人工经验的依赖。通过提供透明、可解释的计划过程，增强临床医生对AI系统的信任，促进AI技术在放射治疗领域的应用。未来，该技术有望扩展到其他类型的放射治疗计划，并与其他医疗AI系统集成，实现更智能化的诊疗流程。

📄 摘要（原文）

Stereotactic radiosurgery (SRS) demands precise dose shaping around critical structures, yet black-box AI systems have limited clinical adoption due to opacity concerns. We tested whether chain-of-thought reasoning improves agentic planning in a retrospective cohort of 41 patients with brain metastases treated with 18 Gy single-fraction SRS. We developed SAGE (Secure Agent for Generative Dose Expertise), an LLM-based planning agent for automated SRS treatment planning. Two variants generated plans for each case: one using a non-reasoning model, one using a reasoning model. The reasoning variant showed comparable plan dosimetry relative to human planners on primary endpoints (PTV coverage, maximum dose, conformity index, gradient index; all p > 0.21) while reducing cochlear dose below human baselines (p = 0.022). When prompted to improve conformity, the reasoning model demonstrated systematic planning behaviors including prospective constraint verification (457 instances) and trade-off deliberation (609 instances), while the standard model exhibited none of these deliberative processes (0 and 7 instances, respectively). Content analysis revealed that constraint verification and causal explanation concentrated in the reasoning agent. The optimization traces serve as auditable logs, offering a path toward transparent automated planning.

Automated stereotactic radiosurgery planning using a human-in-the-loop reasoning large language model agent

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理