CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

📄 arXiv: 2603.08321v1 📥 PDF

作者: Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu

分类: cs.AI

发布日期: 2026-03-09

备注: 19 pages, 5 figures, 18 tables. Includes the Acu-Reasoning dataset and TCM knowledge graph schema


💡 一句话要点

提出CORE-Acu框架,结合结构化推理和知识图谱安全验证,提升针灸临床决策支持的可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 针灸临床决策支持 神经符号推理 知识图谱 结构化推理 安全验证

📋 核心要点

  1. 现有基于LLM的临床决策支持系统存在推理过程不透明、易产生幻觉等问题,难以满足针灸领域对可解释性和安全性的严格要求。
  2. CORE-Acu通过构建结构化推理轨迹数据集和中医安全知识图谱,结合神经符号方法,实现可解释的推理过程和严格的安全验证。
  3. 实验结果表明,CORE-Acu在实体保真度和推理质量方面表现优异,且安全违规率显著低于GPT-4o,证明了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)在临床决策支持(CDS)方面显示出巨大潜力,但其黑盒特性——以不可追踪的推理和概率性幻觉为特征——在针灸领域构成了严峻挑战,针灸领域需要严格的可解释性和安全性。为了解决这个问题,我们提出了CORE-Acu,一个用于针灸临床决策支持的神经符号框架,它集成了结构化思维链(S-CoT)与知识图谱(KG)安全验证。首先,我们构建了第一个针灸结构化推理轨迹数据集和一个模式约束的微调框架。通过强制执行从模式识别到治疗原则、治疗计划和穴位选择的显式因果链,我们将隐式中医(TCM)推理转化为可解释的生成约束,从而减轻了基于llm的CDS的不透明性。此外,我们构建了一个中医安全知识图谱,并建立了一个基于符号否决机制的“生成-验证-修改”闭环推理系统,采用确定性规则来拦截幻觉并强制执行硬安全边界。最后,我们引入了词汇匹配实体重加权损失(LMERL),通过自适应地放大微调过程中高风险实体的梯度贡献,纠正了一般优化中由频率-重要性不匹配引起的术语漂移。对1000个保留案例的实验表明,CORE-Acu具有卓越的实体保真度和推理质量。至关重要的是,CORE-Acu实现了0/1000观察到的安全违规(95% CI: 0-0.37%),而GPT-4o在相同的规则下表现出8.5%的违规率。这些结果确立了CORE-Acu作为一个强大的神经符号框架,用于针灸临床决策支持,保证了推理的可审计性和严格的安全合规性。

🔬 方法详解

问题定义:现有基于大型语言模型(LLM)的针灸临床决策支持系统存在黑盒问题,推理过程不可追踪,容易产生幻觉,导致安全风险。传统中医(TCM)推理过程复杂,缺乏明确的因果关系,使得LLM难以准确理解和应用。现有方法难以保证决策过程的可解释性和安全性,无法满足针灸临床的严格要求。

核心思路:CORE-Acu的核心思路是将隐式的中医推理过程显式化,通过结构化的思维链(S-CoT)将推理过程分解为可解释的步骤,并结合中医安全知识图谱进行安全验证。通过这种神经符号结合的方法,既利用了LLM的生成能力,又保证了推理过程的可控性和安全性。

技术框架:CORE-Acu框架包含以下主要模块:1) 针灸结构化推理轨迹数据集构建:构建包含模式识别、治疗原则、治疗计划和穴位选择等步骤的结构化数据集。2) 模式约束微调框架:利用结构化数据集对LLM进行微调,强制LLM按照预定义的因果链进行推理。3) 中医安全知识图谱构建:构建包含穴位禁忌、配伍禁忌等安全信息的知识图谱。4) “生成-验证-修改”闭环推理系统:首先由LLM生成治疗方案,然后通过知识图谱进行安全验证,如果发现违规,则进行修改。5) 词汇匹配实体重加权损失(LMERL):用于纠正微调过程中由于频率-重要性不匹配导致的术语漂移。

关键创新:CORE-Acu的关键创新在于:1) 提出了针灸结构化推理轨迹数据集,为LLM提供了可解释的推理过程。2) 结合知识图谱进行安全验证,有效降低了幻觉和安全风险。3) 提出了词汇匹配实体重加权损失,解决了术语漂移问题。与现有方法相比,CORE-Acu更注重推理过程的可解释性和安全性,能够提供更可靠的临床决策支持。

关键设计:在结构化推理轨迹数据集中,每个样本都包含明确的因果链,从症状到诊断,再到治疗原则和穴位选择。在知识图谱中,使用确定性规则来表示安全约束,例如穴位禁忌和配伍禁忌。在LMERL中,通过自适应地放大高风险实体的梯度贡献,来纠正术语漂移。具体来说,损失函数的设计考虑了实体的重要性,并根据其在知识图谱中的风险等级进行加权。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CORE-Acu在1000个保留案例上的实验表明,其具有卓越的实体保真度和推理质量。更重要的是,CORE-Acu的安全违规率为0/1000 (95% CI: 0-0.37%),而GPT-4o在相同规则下的违规率为8.5%。这表明CORE-Acu在保证安全合规性方面具有显著优势。

🎯 应用场景

CORE-Acu可应用于针灸临床决策支持系统,辅助医生进行诊断和治疗方案制定,提高决策效率和准确性,降低医疗风险。该研究成果还可推广到其他需要高可靠性和可解释性的医疗领域,例如药物相互作用分析、手术方案制定等,具有广阔的应用前景。

📄 摘要(原文)

Large language models (LLMs) show significant potential for clinical decision support (CDS), yet their black-box nature -- characterized by untraceable reasoning and probabilistic hallucinations -- poses severe challenges in acupuncture, a field demanding rigorous interpretability and safety. To address this, we propose CORE-Acu, a neuro-symbolic framework for acupuncture clinical decision support that integrates Structured Chain-of-Thought (S-CoT) with knowledge graph (KG) safety verification. First, we construct the first acupuncture Structured Reasoning Trace dataset and a schema-constrained fine-tuning framework. By enforcing an explicit causal chain from pattern identification to treatment principles, treatment plans, and acupoint selection, we transform implicit Traditional Chinese Medicine (TCM) reasoning into interpretable generation constraints, mitigating the opacity of LLM-based CDS. Furthermore, we construct a TCM safety knowledge graph and establish a ``Generate--Verify--Revise'' closed-loop inference system based on a Symbolic Veto Mechanism, employing deterministic rules to intercept hallucinations and enforce hard safety boundaries. Finally, we introduce the Lexicon-Matched Entity-Reweighted Loss (LMERL), which corrects terminology drift caused by the frequency--importance mismatch in general optimization by adaptively amplifying gradient contributions of high-risk entities during fine-tuning. Experiments on 1,000 held-out cases demonstrate CORE-Acu's superior entity fidelity and reasoning quality. Crucially, CORE-Acu achieved 0/1,000 observed safety violations (95\% CI: 0--0.37\%), whereas GPT-4o exhibited an 8.5\% violation rate under identical rules. These results establish CORE-Acu as a robust neuro-symbolic framework for acupuncture clinical decision support, guaranteeing both reasoning auditability and strict safety compliance.