COTCAgent: Preventive Consultation via Probabilistic Chain-of-Thought Completion

📄 arXiv: 2605.15016v1 📥 PDF

作者: Zihan Deng, Xiaozhen Zhong, Chuanzhi Xu

分类: cs.CL, cs.AI

发布日期: 2026-05-14

🔗 代码/项目: GITHUB


💡 一句话要点

COTCAgent:通过概率性思维链补全实现预防性临床咨询

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子病历分析 临床决策支持 大型语言模型 时间序列推理 思维链补全

📋 核心要点

  1. 现有大型语言模型在处理纵向电子病历时,缺乏细粒度的统计推理能力,容易产生临床趋势幻觉,影响诊断准确性。
  2. COTCAgent通过解耦统计计算、特征匹配和语言生成,构建分层推理框架,利用时间统计适配器、思维链补全和有界补全模块,实现更可靠的临床推理。
  3. 实验结果表明,COTCAgent在自建数据集和HealthBench上均取得了优于现有医疗代理和主流大型语言模型的性能,验证了其有效性。

📝 摘要(中文)

随着大型语言模型在医疗保健领域的应用,智能临床决策支持发展迅速。纵向电子病历(EHR)为准确的临床诊断和分析提供了重要的时间证据。然而,目前的大型语言模型在纵向EHR推理方面存在关键缺陷。首先,由于缺乏细粒度的统计推理,它们经常在文本隐含定量证据时产生临床趋势和指标的幻觉,从而导致诊断推理出现偏差。其次,纵向EHR中非均匀的时间序列和稀缺的标签阻碍了模型捕捉长程时间依赖关系,限制了可靠的临床推理。为了解决上述局限性,本文提出了一种用于纵向电子病历的分层推理框架——概率性思维链补全代理(COTCAgent)。它由三个核心模块组成:时间统计适配器(TSA)将分析计划转换为可执行代码,以实现标准化趋势输出;思维链补全(COTC)层利用具有加权评分的症状-趋势-疾病知识库来评估疾病风险;有界补全模块通过标准化查询和迭代评分约束来获取结构化证据,以确保严格的推理。通过解耦统计计算、特征匹配和语言生成,该框架消除了对复杂多模态输入的依赖,并能够以较低的计算开销实现高效的纵向记录分析。实验结果表明,由Baichuan-M2驱动的COTCAgent在自建数据集上实现了90.47%的Top-1准确率,在HealthBench上实现了70.41%的Top-1准确率,优于现有的医疗代理和主流大型语言模型。

🔬 方法详解

问题定义:现有的大型语言模型在处理纵向电子病历(EHR)时,面临两个主要问题。一是缺乏细粒度的统计推理能力,容易在定量证据不足时产生临床趋势的幻觉,导致诊断偏差。二是难以捕捉EHR中非均匀时间序列中的长程时间依赖关系,限制了临床推理的可靠性。这些问题阻碍了大型语言模型在临床决策支持中的应用。

核心思路:COTCAgent的核心思路是将复杂的纵向EHR推理过程分解为三个解耦的模块:时间统计适配器(TSA)、思维链补全(COTC)层和有界补全模块。通过这种解耦,模型可以分别处理统计计算、特征匹配和语言生成,从而避免了对复杂多模态输入的依赖,并降低了计算开销。这种分层推理框架旨在提高模型在纵向EHR分析中的准确性和效率。

技术框架:COTCAgent的整体框架包含三个核心模块。首先,时间统计适配器(TSA)将分析计划转换为可执行代码,用于生成标准化的趋势输出。其次,思维链补全(COTC)层利用症状-趋势-疾病知识库,通过加权评分评估疾病风险。最后,有界补全模块通过标准化查询和迭代评分约束,获取结构化证据,确保推理的严谨性。这三个模块协同工作,实现对纵向EHR的全面分析。

关键创新:COTCAgent的关键创新在于其分层解耦的推理框架。与以往依赖复杂多模态输入的方法不同,COTCAgent将统计计算、特征匹配和语言生成分离,从而降低了计算复杂性,并提高了推理的准确性。此外,通过引入时间统计适配器和有界补全模块,模型能够更好地处理EHR中的时间序列数据和证据约束,从而实现更可靠的临床推理。

关键设计:COTCAgent的关键设计包括:(1) 时间统计适配器(TSA)的设计,它能够将自然语言描述的分析计划转化为可执行的统计代码,从而实现对EHR数据的自动化分析。(2) 思维链补全(COTC)层中,症状-趋势-疾病知识库的构建和加权评分机制,用于评估疾病风险。(3) 有界补全模块中,标准化查询的设计和迭代评分约束,用于获取结构化证据并确保推理的严谨性。论文中未明确提及损失函数和网络结构等细节,可能使用了预训练语言模型Baichuan-M2的默认配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

COTCAgent在自建数据集上实现了90.47%的Top-1准确率,在HealthBench上实现了70.41%的Top-1准确率。相较于现有的医疗代理和主流大型语言模型,COTCAgent在纵向EHR推理方面表现出显著的性能提升,验证了其在临床决策支持方面的有效性。这些结果表明,COTCAgent能够更准确地分析EHR数据,为医生提供更可靠的决策依据。

🎯 应用场景

COTCAgent具有广泛的应用前景,可用于智能临床决策支持系统,辅助医生进行疾病诊断、风险评估和治疗方案制定。该研究有助于提高医疗服务的效率和质量,降低医疗成本,并为患者提供更个性化的医疗服务。未来,该技术有望应用于远程医疗、健康管理等领域,促进医疗健康产业的智能化升级。

📄 摘要(原文)

As large language models empower healthcare, intelligent clinical decision support has developed rapidly. Longitudinal electronic health records (EHR) provide essential temporal evidence for accurate clinical diagnosis and analysis. However, current large language models have critical flaws in longitudinal EHR reasoning. First, lacking fine-grained statistical reasoning, they often hallucinate clinical trends and metrics when quantitative evidence is textually implied, biasing diagnostic inference. Second, non-uniform time series and scarce labels in longitudinal EHR hinder models from capturing long-range temporal dependencies, limiting reliable clinical reasoning. To address the above limitations, this work presents the Probabilistic Chain-of-Thought Completion Agent (COTCAgent), a hierarchical reasoning framework for longitudinal electronic health records. It consists of three core modules. The Temporal-Statistics Adapter (TSA) converts analytical plans into executable code for standardized trend output. The Chain-of-Thought Completion (COTC) layer leverages a symptom-trend-disease knowledge base with weighted scoring to evaluate disease risk, while the bounded completion module acquires structured evidence through standardized inquiries and iterative scoring constraints to ensure rigorous reasoning. By decoupling statistical computation, feature matching, and language generation, the framework eliminates reliance on complex multi-modal inputs and enables efficient longitudinal record analysis with lower computational overhead. Experimental results show that COTCAgent powered by Baichuan-M2 achieves 90.47% Top-1 accuracy on the self-built dataset and 70.41% on HealthBench, outperforming existing medical agents and mainstream large language models. The code is available at https://github.com/FrankDengAI/COTCAgent/.