Longitudinal and Multimodal Recording System to Capture Real-World Patient-Clinician Conversations for AI and Encounter Research: Protocol

作者: Misk Al Zahidy, Kerly Guevara Maldonado, Luis Vilatuna Andrango, Ana Cristina Proano, Ana Gabriela Claros, Maria Lizarazo Jimenez, David Toro-Tobon, Victor M. Montori, Oscar J. Ponce-Ponte, Juan P. Brito

分类: cs.CY, cs.CL

发布日期: 2025-09-19 (更新: 2025-09-26)

备注: 23 pages, 2 figures, 2 tables

💡 一句话要点

构建纵向多模态记录系统，捕捉真实医患对话，促进AI与诊疗研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态数据 医患互动 人工智能 临床诊疗 数据采集 电子健康记录 纵向研究

📋 核心要点

现有医学AI模型主要依赖电子健康记录，忽略了医患互动中重要的语音、文本和视频信息。
本研究设计并实施一个纵向多模态系统，将360度视频/音频记录与调查问卷和电子健康记录关联，构建更全面的数据集。
研究表明，该系统在临床医生和患者的接受度、记录成功率和数据链接方面均表现出良好的可行性。

📝 摘要（中文）

医学人工智能的潜力取决于从反映患者和临床医生需求的数据中学习。现有模型主要基于电子健康记录（EHR）训练，EHR侧重于生理指标，却鲜少捕捉医患互动。这些互动关系，对诊疗至关重要，贯穿于语音、文本和视频中，但现有数据集缺乏这些信息。因此，仅基于EHR训练的AI系统可能延续狭隘的生物医学视角，忽略定义临床诊疗过程的真实交流。本研究旨在设计、实施和评估一个纵向多模态系统的可行性，该系统用于捕捉医患互动，将360度视频/音频记录与调查问卷和EHR数据关联，从而创建一个用于AI研究的数据集。该单中心研究在梅奥诊所的学术门诊内分泌科进行。招募参与临床医生的成年患者进行面对面就诊。使用360度摄像机记录就诊过程。每次就诊后，患者完成关于共情、满意度、节奏和治疗负担的调查。从EHR中提取人口统计学和临床数据。通过五个指标评估可行性：临床医生同意率、患者同意率、记录成功率、调查完成率以及跨模态数据链接。招募工作于2025年1月开始。截至2025年8月，36名符合条件的临床医生中有35名（97%）和281名受邀患者中有212名（75%）表示同意。在同意记录的就诊中，162次（76%）有完整的录音，204次（96%）完成了调查。本研究旨在展示一个可复制的框架的可行性，用于捕捉医患互动的多模态动态。通过详细说明工作流程、指标和伦理保障，它为纵向数据集提供了一个模板，并为包含复杂诊疗过程的AI模型奠定了基础。

🔬 方法详解

问题定义：现有医学AI模型训练主要依赖电子健康记录（EHR），而EHR缺乏对医患互动过程的记录，例如对话内容、非语言交流等。这导致AI模型难以理解诊疗过程的复杂性，可能 perpetuating 狭隘的生物医学视角。现有方法的痛点在于数据来源的局限性，无法捕捉到影响诊疗效果的关键因素。

核心思路：本研究的核心思路是构建一个纵向、多模态的数据采集系统，全面记录医患互动过程。通过整合360度视频/音频记录、患者调查问卷和EHR数据，创建一个包含语音、文本、视频和结构化数据的综合数据集。这样设计的目的是为了更全面地反映诊疗过程，为AI模型提供更丰富的学习素材。

技术框架：该研究的技术框架主要包含以下几个阶段：1) 招募参与研究的临床医生和患者；2) 在诊疗过程中使用360度摄像机记录医患互动；3) 在每次就诊后，患者完成关于共情、满意度、节奏和治疗负担的调查问卷；4) 从EHR中提取患者的人口统计学和临床数据；5) 将不同模态的数据进行链接和整合。

关键创新：本研究的关键创新在于构建了一个可复制的、多模态的数据采集框架，能够系统性地记录医患互动过程。与以往主要依赖EHR数据的研究相比，本研究的数据集包含了更丰富的上下文信息，为AI模型提供了更全面的学习素材。

关键设计：研究中，360度摄像机的选择保证了对诊疗环境的全面记录。患者调查问卷的设计涵盖了影响诊疗体验的关键因素，如共情、满意度等。数据链接过程需要确保不同模态数据之间的准确对应，例如将视频记录与对应的调查问卷和EHR数据关联。

📊 实验亮点

研究结果显示，临床医生同意率为97%，患者同意率为75%，表明该系统具有良好的接受度。在同意记录的就诊中，76%有完整的录音，96%完成了调查，表明数据采集的成功率较高。这些数据证明了该框架在实际应用中的可行性，为构建大规模多模态医疗数据集奠定了基础。

🎯 应用场景

该研究成果可应用于开发更智能的医疗AI系统，例如辅助诊断、个性化治疗方案推荐、医患沟通技巧培训等。通过分析医患互动数据，可以深入了解影响诊疗效果的关键因素，从而提升医疗服务质量和患者满意度。未来，该系统可推广到其他科室和医疗机构，构建更大规模的多模态医疗数据集。

📄 摘要（原文）

The promise of AI in medicine depends on learning from data that reflect what matters to patients and clinicians. Most existing models are trained on electronic health records (EHRs), which capture biological measures but rarely patient-clinician interactions. These relationships, central to care, unfold across voice, text, and video, yet remain absent from datasets. As a result, AI systems trained solely on EHRs risk perpetuating a narrow biomedical view of medicine and overlooking the lived exchanges that define clinical encounters. Our objective is to design, implement, and evaluate the feasibility of a longitudinal, multimodal system for capturing patient-clinician encounters, linking 360 degree video/audio recordings with surveys and EHR data to create a dataset for AI research. This single site study is in an academic outpatient endocrinology clinic at Mayo Clinic. Adult patients with in-person visits to participating clinicians are invited to enroll. Encounters are recorded with a 360 degree video camera. After each visit, patients complete a survey on empathy, satisfaction, pace, and treatment burden. Demographic and clinical data are extracted from the EHR. Feasibility is assessed using five endpoints: clinician consent, patient consent, recording success, survey completion, and data linkage across modalities. Recruitment began in January 2025. By August 2025, 35 of 36 eligible clinicians (97%) and 212 of 281 approached patients (75%) had consented. Of consented encounters, 162 (76%) had complete recordings and 204 (96%) completed the survey. This study aims to demonstrate the feasibility of a replicable framework for capturing the multimodal dynamics of patient-clinician encounters. By detailing workflows, endpoints, and ethical safeguards, it provides a template for longitudinal datasets and lays the foundation for AI models that incorporate the complexity of care.

Longitudinal and Multimodal Recording System to Capture Real-World Patient-Clinician Conversations for AI and Encounter Research: Protocol

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理