Grounding Clinical AI Competency in Human Cognition Through the Clinical World Model and Skill-Mix Framework

📄 arXiv: 2604.08226v1 📥 PDF

作者: Seyed Amir Ahmad Safavi-Naini, Elahe Meftah, Josh Mohess, Pooya Mohammadi Kazaj, Georgios Siontis, Zahra Atf, Peter R. Lewis, Mauricio Reyes, Girish Nadkarni, Roland Wiest, Stephan Windecker, Christoph Grani, Ali Soroush, Isaac Shiri

分类: cs.AI, cs.HC, eess.SY

发布日期: 2026-04-09

备注: Code, data (Clinical AI Skill-Mix dimension specifications), and an exploratory dashboard are available at https://github.com/Sdamirsa/Clinical-World-Model


💡 一句话要点

提出临床世界模型和技能组合框架,弥合临床AI能力与人类认知之间的差距

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 临床AI 世界模型 技能组合 能力评估 医疗保健

📋 核心要点

  1. 现有临床AI框架缺乏对临床世界的统一形式化描述,导致评估、监管和系统设计相互孤立。
  2. 论文提出临床世界模型,将医疗保健视为患者、提供者和生态系统之间的三方互动,并构建并行决策架构。
  3. 临床AI技能组合框架通过八个维度定义能力空间,强调了能力验证的坐标依赖性,并为AI能力评估提供通用语法。

📝 摘要(中文)

任何智能体的能力都受限于其对所处世界的形式化描述。临床AI目前缺乏这种描述。现有的框架孤立地处理评估、监管或系统设计,而没有一个共享的临床世界模型将它们连接起来。本文提出了临床世界模型,该框架将医疗保健形式化为患者、提供者和生态系统之间的三方互动。为了形式化任何智能体(无论是人类还是人工智能)如何将信息转化为临床行动,我们基于临床认知的验证原则,为提供者、患者和AI智能体开发了并行的决策架构。临床AI技能组合通过八个维度来操作能力。五个维度定义了临床能力空间(病情、阶段、护理环境、提供者角色和任务),三个维度指定了AI如何参与人类推理(分配的权限、面向智能体和锚定层)。这些维度的组合乘积产生了一个数十亿个不同能力坐标的空间。一个中心结构性含义是,在一个坐标内的验证为另一个坐标中的性能提供的证据极少,从而使能力空间不可约。该框架提供了一种通用语法,通过该语法可以跨利益相关者指定、评估和限制临床AI。通过明确这种结构,临床世界模型将该领域的核心问题从AI是否有效转变为在哪些能力坐标中已经证明了可靠性,以及为谁证明了可靠性。

🔬 方法详解

问题定义:当前临床AI系统缺乏对临床环境的全面理解和形式化建模,导致其能力评估和应用受到限制。现有的评估框架往往是孤立的,缺乏一个统一的视角来连接患者、医疗提供者和医疗生态系统,从而难以准确评估AI在不同临床场景下的表现。

核心思路:论文的核心思路是通过构建“临床世界模型”来形式化临床环境,并利用“技能组合框架”来定义和评估临床AI的能力。临床世界模型将医疗保健过程分解为患者、提供者和生态系统之间的互动,而技能组合框架则从多个维度(如病情、阶段、护理环境等)来描述AI的能力,从而实现对AI在特定临床场景下表现的精确评估。

技术框架:该框架包含两个主要组成部分:临床世界模型和临床AI技能组合。临床世界模型将临床环境建模为患者、提供者和生态系统之间的三方互动。临床AI技能组合则通过八个维度来定义AI的能力,包括五个临床能力维度(病情、阶段、护理环境、提供者角色和任务)和三个AI参与人类推理的维度(分配的权限、面向智能体和锚定层)。这些维度的组合定义了一个巨大的能力空间,用于评估AI在不同场景下的表现。

关键创新:该论文的关键创新在于提出了一个统一的框架,将临床环境的形式化建模与AI能力的评估相结合。通过临床世界模型,可以更好地理解AI在临床环境中的作用和影响。通过技能组合框架,可以更精确地定义和评估AI的能力,从而避免了对AI能力的过度泛化。

关键设计:临床世界模型的核心在于对患者、提供者和生态系统之间关系的建模,需要仔细考虑各个实体之间的互动方式和信息流动。技能组合框架的关键在于选择合适的维度来描述AI的能力,并定义每个维度的取值范围。此外,还需要设计合适的评估指标来衡量AI在不同能力坐标下的表现。

📊 实验亮点

论文提出了临床世界模型和技能组合框架,为临床AI的能力评估提供了一个新的视角。该框架强调了能力验证的坐标依赖性,即在一个坐标内的验证不能直接推广到其他坐标。通过该框架,可以更精确地评估AI在特定临床场景下的表现,从而避免了对AI能力的过度泛化。虽然论文没有提供具体的实验数据,但其提出的框架为未来的临床AI研究提供了重要的指导。

🎯 应用场景

该研究成果可应用于临床AI系统的设计、评估和监管。通过临床世界模型,可以更好地理解AI在临床环境中的作用和影响,从而设计出更安全、更有效的AI系统。通过技能组合框架,可以更精确地评估AI的能力,从而为临床决策提供更可靠的依据。此外,该框架还可以用于指导AI系统的部署和使用,确保AI在合适的场景下发挥作用。

📄 摘要(原文)

The competency of any intelligent agent is bounded by its formal account of the world in which it operates. Clinical AI lacks such an account. Existing frameworks address evaluation, regulation, or system design in isolation, without a shared model of the clinical world to connect them. We introduce the Clinical World Model, a framework that formalizes care as a tripartite interaction among Patient, Provider, and Ecosystem. To formalize how any agent, whether human or artificial, transforms information into clinical action, we develop parallel decision-making architectures for providers, patients, and AI agents, grounded in validated principles of clinical cognition. The Clinical AI Skill-Mix operationalizes competency through eight dimensions. Five define the clinical competency space (condition, phase, care setting, provider role, and task) and three specify how AI engages human reasoning (assigned authority, agent facing, and anchoring layer). The combinatorial product of these dimensions yields a space of billions of distinct competency coordinates. A central structural implication is that validation within one coordinate provides minimal evidence for performance in another, rendering the competency space irreducible. The framework supplies a common grammar through which clinical AI can be specified, evaluated, and bounded across stakeholders. By making this structure explicit, the Clinical World Model reframes the field's central question from whether AI works to in which competency coordinates reliability has been demonstrated, and for whom.