Blinded Multi-Rater Comparative Evaluation of a Large Language Model and Clinician-Authored Responses in CGM-Informed Diabetes Counseling

作者: Zhijun Guo, Alvina Lai, Emmanouil Korakas, Aristeidis Vagenas, Irshad Ahamed, Christo Albor, Hengrui Zhang, Justin Healy, Kezhi Li

分类: cs.CL

发布日期: 2026-04-16

💡 一句话要点

检索增强LLM在CGM指导的糖尿病咨询中表现优于临床医生

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 检索增强 糖尿病咨询 持续血糖监测 临床决策支持

📋 核心要点

糖尿病管理中，清晰解读CGM数据耗时且需要同理心，现有方法难以兼顾效率与质量。
构建检索增强LLM对话代理，通过检索相关知识生成通俗易懂的回复，辅助CGM解读和咨询。
盲法评估显示，LLM生成的回复在同理心和可操作性上优于临床医生，安全性相当。

📝 摘要（中文）

持续血糖监测(CGM)是糖尿病管理的核心，但清晰且富含同理心地解释CGM模式非常耗时。检索增强的大型语言模型(LLM)系统在CGM指导的咨询中的应用证据仍然有限。本研究旨在评估基于检索增强LLM的对话代理(CA)是否能帮助患者理解CGM数据，并为常规糖尿病咨询做好准备。我们开发了一个基于检索增强LLM的CA，用于CGM解读和糖尿病咨询支持。该系统生成通俗易懂的回复，同时避免个性化的治疗建议。从公开数据集中构建了12个CGM案例。2025年10月至2026年2月期间，6位英国资深糖尿病临床医生每人审查了2个分配的案例，并回答了24个问题。在一项盲法多评估者评估中，每个CA生成和临床医生撰写的回复都由3位临床医生独立评估了6个质量维度。同时记录了安全标志和感知来源标签。主要分析采用线性混合效应模型。总共288个独特回复（144个CA和144个临床医生）生成了864个评分。CA获得的质量评分高于临床医生回复（平均4.37 vs 3.58），估计平均差异为0.782分（95% CI 0.692-0.872; P<.001）。最大的差异在于同理心（1.062, 95% CI 0.948-1.177）和可操作性（0.992, 95% CI 0.877-1.106）。安全标志分布相似，两组的主要问题都很少见（各3/432, 0.7%）。检索增强LLM系统可能作为CGM审查、患者教育和咨询前准备的辅助工具具有价值。然而，这些发现不支持自主治疗决策或无监督的实际应用。

🔬 方法详解

问题定义：该论文旨在解决糖尿病咨询中，临床医生耗时费力地解读CGM数据并提供个性化建议的问题。现有方法的痛点在于，人工解读效率低，且难以保证每次咨询都具备高度的同理心和可操作性。

核心思路：论文的核心解决思路是利用检索增强的大型语言模型（LLM）构建一个对话代理（CA）。该CA通过检索相关知识，生成通俗易懂且富含同理心的回复，从而辅助临床医生进行CGM数据解读和咨询。这样设计的目的是提高咨询效率，并确保回复的质量和一致性。

技术框架：整体架构包含以下主要模块：1) CGM数据输入模块：接收患者的CGM数据。2) 检索模块：根据CGM数据检索相关的糖尿病知识库。3) LLM生成模块：利用检索到的知识，结合LLM生成通俗易懂的回复。4) 安全过滤模块：过滤掉可能存在的个性化治疗建议，确保安全性。5) 输出模块：将生成的回复呈现给临床医生或患者。

关键创新：最重要的技术创新点在于将检索增强技术应用于糖尿病咨询领域。通过检索相关知识，LLM能够生成更准确、更具针对性的回复，从而提高咨询的效率和质量。与直接使用LLM生成回复相比，检索增强的方法可以减少LLM的幻觉问题，并提高回复的可信度。

关键设计：论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但可以推测，检索模块可能使用了基于向量相似度的检索方法，LLM可能使用了预训练的语言模型，并进行了微调。安全过滤模块可能使用了关键词过滤或规则引擎等技术。

📊 实验亮点

研究结果显示，基于检索增强LLM的对话代理在同理心（平均差异1.062, 95% CI 0.948-1.177）和可操作性（平均差异0.992, 95% CI 0.877-1.106）方面显著优于临床医生撰写的回复（P<.001）。在安全性方面，两组的主要问题发生率均较低（各0.7%），表明该系统在保证安全性的前提下，能够提供更高质量的咨询建议。

🎯 应用场景

该研究成果可应用于糖尿病患者教育、临床医生辅助决策和远程医疗等领域。通过部署该对话代理，可以帮助患者更好地理解CGM数据，提高自我管理能力。同时，该系统可以减轻临床医生的工作负担，提高咨询效率，并为远程医疗提供技术支持。未来，该技术有望扩展到其他慢性疾病的管理中。

📄 摘要（原文）

Continuous glucose monitoring (CGM) is central to diabetes care, but explaining CGM patterns clearly and empathetically remains time-intensive. Evidence for retrieval-grounded large language model (LLM) systems in CGM-informed counseling remains limited. To evaluate whether a retrieval-grounded LLM-based conversational agent (CA) could support patient understanding of CGM data and preparation for routine diabetes consultations. We developed a retrieval-grounded LLM-based CA for CGM interpretation and diabetes counseling support. The system generated plain-language responses while avoiding individualized therapeutic advice. Twelve CGM-informed cases were constructed from publicly available datasets. Between Oct 2025 and Feb 2026, 6 senior UK diabetes clinicians each reviewed 2 assigned cases and answered 24 questions. In a blinded multi-rater evaluation, each CA-generated and clinician-authored response was independently rated by 3 clinicians on 6 quality dimensions. Safety flags and perceived source labels were also recorded. Primary analyses used linear mixed-effects models. A total of 288 unique responses (144 CA and 144 clinician) generated 864 ratings. The CA received higher quality scores than clinician responses (mean 4.37 vs 3.58), with an estimated mean difference of 0.782 points (95% CI 0.692-0.872; P<.001). The largest differences were for empathy (1.062, 95% CI 0.948-1.177) and actionability (0.992, 95% CI 0.877-1.106). Safety flag distributions were similar, with major concerns rare in both groups (3/432, 0.7% each). Retrieval-grounded LLM systems may have value as adjunct tools for CGM review, patient education, and preconsultation preparation. However, these findings do not support autonomous therapeutic decision-making or unsupervised real-world use.

Blinded Multi-Rater Comparative Evaluation of a Large Language Model and Clinician-Authored Responses in CGM-Informed Diabetes Counseling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理