Performance of a large language model-Artificial Intelligence based chatbot for counseling patients with sexually transmitted infections and genital diseases

📄 arXiv: 2412.12166v1 📥 PDF

作者: Nikhil Mehta, Sithira Ambepitiya, Thanveer Ahamad, Dinuka Wijesundara, Yudara Kularathne

分类: cs.CL, cs.AI

发布日期: 2024-12-11

备注: 18 pages, 1 table


💡 一句话要点

Otiz:基于大型语言模型的性传播感染咨询AI聊天机器人

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 性传播感染 人工智能 聊天机器人 大型语言模型 医疗咨询 GPT-4 多智能体系统 健康教育

📋 核心要点

  1. 现有通用聊天机器人无法有效处理性传播感染(STI)相关咨询,导致患者难以获得及时准确的信息。
  2. Otiz利用GPT4-0613构建多智能体系统,结合LLM和确定性有限自动机,提供医学准确、情境相关的STI咨询服务。
  3. 实验表明,Otiz在STI诊断准确性、信息正确性和同理心方面表现出色,但相关性方面仍有提升空间。

📝 摘要(中文)

性传播感染(STI)的全球负担日益加重,但相关专家数量不足。现有的聊天机器人如ChatGPT无法直接处理STI相关问题。本文开发了Otiz,一个基于人工智能(AI)的聊天机器人平台,专门用于STI检测和咨询,并评估了其性能。Otiz采用基于GPT4-0613的多智能体系统架构,利用大型语言模型(LLM)和确定性有限自动机原理,提供上下文相关、医学准确且富有同理心的回复。其组件包括通用STI信息、情绪识别、急性应激障碍检测和心理治疗模块。问题建议代理并行运行。使用模拟患者语言的提示,评估了四种STI(肛门生殖器疣、疱疹、梅毒、尿道炎/宫颈炎)和两种非STI(念珠菌病、阴茎癌)。由两位性病学家作为患者与Otiz对话,独立评估每个提示的六个标准,使用0(差)到5(优)的数字评分量表。结果表明,Otiz在诊断准确性、总体准确性、信息正确性、可理解性和同理心方面得分较高。但相关性得分较低,表明存在冗余。非STI的诊断得分较低。观察者间一致性强。结论是,像Otiz这样的人工智能对话代理可以以一种富于同情心的方式提供准确、正确、离散、非评判性、易于访问和易于理解的STI相关信息,并可以减轻医疗保健系统的负担。

🔬 方法详解

问题定义:当前,性传播感染(STI)的全球负担日益加重,但专业的医疗资源相对匮乏。现有的通用聊天机器人,例如ChatGPT,在未经专门训练的情况下,无法准确、全面地处理与STI相关的复杂问题,例如诊断、治疗建议和情感支持。这导致患者难以获得及时、可靠的医疗信息,增加了医疗系统的压力。

核心思路:Otiz的核心思路是构建一个专门针对STI咨询的AI聊天机器人,通过结合大型语言模型(LLM)的强大语言理解和生成能力,以及确定性有限自动机(DFA)的逻辑严谨性,确保提供医学准确、情境相关的回复。此外,Otiz还集成了情绪识别和心理治疗模块,以提供更全面、更具同理心的服务。

技术框架:Otiz采用多智能体系统架构,主要包含以下模块:1) 通用STI信息模块:提供关于各种STI的基本知识;2) 情绪识别模块:识别患者的情绪状态,以便调整回复方式;3) 急性应激障碍检测模块:检测患者是否存在急性应激障碍的风险;4) 心理治疗模块:提供心理支持和建议;5) 问题建议代理:并行运行,为用户提供问题建议。这些模块协同工作,确保Otiz能够全面理解患者的需求,并提供个性化的咨询服务。

关键创新:Otiz的关键创新在于其专门针对STI咨询的设计,以及多智能体系统的架构。与通用聊天机器人相比,Otiz经过了专门的训练和优化,能够更准确地理解和处理与STI相关的问题。多智能体系统架构使得Otiz能够提供更全面、更个性化的服务,包括情绪识别、心理支持等。

关键设计:Otiz基于GPT4-0613,并利用确定性有限自动机(DFA)来控制对话流程,确保回复的逻辑性和医学准确性。具体的技术细节包括:1) 使用特定的提示工程(Prompt Engineering)技术,引导LLM生成符合医学规范的回复;2) 设计专门的知识库,存储关于各种STI的详细信息;3) 采用情绪识别算法,识别患者的情绪状态;4) 集成心理治疗模型,提供心理支持和建议。

📊 实验亮点

在针对四种STI和两种非STI的评估中,Otiz在诊断准确性(4.1-4.7)、总体准确性(4.3-4.6)、信息正确性(5.0)、可理解性(4.2-4.4)和同理心(4.5-4.8)方面得分较高(满分5分)。尽管相关性得分较低(2.9-3.6),但总体表现优异,表明Otiz在STI咨询方面具有显著潜力。观察者间一致性强,差异大于1分的评估仅占12.7%。

🎯 应用场景

Otiz可应用于在线医疗咨询平台、性健康教育网站和移动应用等场景,为患者提供便捷、私密的STI相关信息和咨询服务。它能够缓解医疗资源的压力,提高患者的就医效率,并促进性健康知识的普及。未来,Otiz有望扩展到其他疾病领域,为更多患者提供个性化的医疗咨询服务。

📄 摘要(原文)

Introduction: Global burden of sexually transmitted infections (STIs) is rising out of proportion to specialists. Current chatbots like ChatGPT are not tailored for handling STI-related concerns out of the box. We developed Otiz, an Artificial Intelligence-based (AI-based) chatbot platform designed specifically for STI detection and counseling, and assessed its performance. Methods: Otiz employs a multi-agent system architecture based on GPT4-0613, leveraging large language model (LLM) and Deterministic Finite Automaton principles to provide contextually relevant, medically accurate, and empathetic responses. Its components include modules for general STI information, emotional recognition, Acute Stress Disorder detection, and psychotherapy. A question suggestion agent operates in parallel. Four STIs (anogenital warts, herpes, syphilis, urethritis/cervicitis) and 2 non-STIs (candidiasis, penile cancer) were evaluated using prompts mimicking patient language. Each prompt was independently graded by two venereologists conversing with Otiz as patient actors on 6 criteria using Numerical Rating Scale ranging from 0 (poor) to 5 (excellent). Results: Twenty-three venereologists did 60 evaluations of 30 prompts. Across STIs, Otiz scored highly on diagnostic accuracy (4.1-4.7), overall accuracy (4.3-4.6), correctness of information (5.0), comprehensibility (4.2-4.4), and empathy (4.5-4.8). However, relevance scores were lower (2.9-3.6), suggesting some redundancy. Diagnostic scores for non-STIs were lower (p=0.038). Inter-observer agreement was strong, with differences greater than 1 point occurring in only 12.7% of paired evaluations. Conclusions: AI conversational agents like Otiz can provide accurate, correct, discrete, non-judgmental, readily accessible and easily understandable STI-related information in an empathetic manner, and can alleviate the burden on healthcare systems.