OGA-AID: Clinician-in-the-loop AI Report Drafting Assistant for Multimodal Observational Gait Analysis in Post-Stroke Rehabilitation
作者: Khoi T. N. Nguyen, Nghia D. Nguyen, Hui Yu Koh, Patrick W. H. Kwong, Karen Sui Geok Chua, Ananda Sidarta, Baosheng Yu
分类: cs.HC, cs.AI
发布日期: 2026-04-07
备注: 2026 CV4Clinic CVPR Workshop Proceedings
💡 一句话要点
OGA-AID:面向卒中康复的多模态步态分析临床医生辅助AI报告草拟系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 步态分析 卒中康复 多模态融合 大型语言模型 智能体系统
📋 核心要点
- 现有步态分析方法在整合视频、动作捕捉等多模态数据时,耗时且对临床医生的认知要求高。
- OGA-AID利用多智能体大型语言模型,协调处理患者运动记录、运动学轨迹和临床信息,生成结构化评估报告。
- 实验表明,OGA-AID优于单次多模态基线,且在临床医生参与下,误差进一步降低,验证了AI辅助步态评估的可行性。
📝 摘要(中文)
步态分析在卒中后康复中至关重要,但将步态视频和动作捕捉数据整合到结构化报告中耗时且认知负担重。我们提出了OGA-AID,一个临床医生参与的多智能体大型语言模型系统,用于多模态报告草拟。该系统协调3个专门的智能体,将患者运动记录、运动学轨迹和临床概况合成为结构化评估。在真实患者数据上,专家理疗师的评估表明,OGA-AID始终优于单次多模态基线,且误差较低。在临床医生参与的设置中,简短的专家初步注释进一步降低了与参考评估相比的误差。我们的研究结果证明了多模态智能体系统在结构化临床步态评估中的可行性,并强调了AI辅助分析与人类临床判断在康复工作流程中的互补关系。
🔬 方法详解
问题定义:论文旨在解决卒中康复中步态分析报告生成效率低下的问题。现有方法需要临床医生手动整合来自视频、动作捕捉系统等多种模态的数据,并将其转化为结构化的报告,这一过程耗时且容易出错。临床医生需要花费大量时间和精力进行数据处理和报告撰写,这限制了他们对患者的关注和治疗效果的提升。
核心思路:论文的核心思路是利用多智能体大型语言模型(LLM)来自动化步态分析报告的生成过程。通过将不同的数据模态(如视频、运动学数据和临床信息)分配给不同的智能体进行处理,并利用LLM进行信息整合和报告生成,从而减轻临床医生的负担,提高报告生成的效率和准确性。
技术框架:OGA-AID系统包含三个主要智能体:1) 视频分析智能体,负责处理步态视频数据,提取关键的步态特征;2) 运动学数据分析智能体,负责处理动作捕捉数据,提取运动学轨迹信息;3) 临床信息处理智能体,负责处理患者的临床概况,如病史、诊断等。这三个智能体协同工作,将各自处理后的信息传递给一个LLM,LLM负责将这些信息整合,生成结构化的步态分析报告。临床医生可以在这个过程中进行干预,提供初步注释,进一步提高报告的准确性。
关键创新:该论文的关键创新在于将多智能体系统与大型语言模型相结合,用于多模态步态分析报告的自动生成。这种方法能够有效地整合来自不同模态的数据,并利用LLM的自然语言生成能力,生成结构化的临床报告。此外,临床医生参与的模式也保证了报告的准确性和可靠性。
关键设计:论文中没有详细说明具体的参数设置、损失函数、网络结构等技术细节。但是,可以推断,每个智能体可能使用了不同的机器学习模型来处理各自的数据模态。例如,视频分析智能体可能使用了卷积神经网络(CNN)来提取步态特征,运动学数据分析智能体可能使用了时间序列模型来分析运动学轨迹。LLM的选择和训练也是一个关键的设计因素,需要根据具体的任务和数据进行调整。
🖼️ 关键图片
📊 实验亮点
OGA-AID在真实患者数据上的评估结果表明,其性能优于单次多模态基线。在临床医生参与的设置中,简短的专家初步注释进一步降低了与参考评估相比的误差。这些结果表明,OGA-AID能够有效地辅助临床医生进行步态分析,并提高报告生成的效率和准确性。具体性能数据和提升幅度在摘要中没有明确给出,属于未知信息。
🎯 应用场景
OGA-AID具有广泛的应用前景,可应用于卒中康复、骨科康复、运动医学等领域。它可以帮助临床医生更高效地进行步态分析,提高诊断和治疗的准确性。此外,该系统还可以用于远程康复和患者自我监测,为患者提供更便捷的康复服务。未来,该技术有望推广到其他类型的临床报告生成,提升医疗效率。
📄 摘要(原文)
Gait analysis is essential in post-stroke rehabilitation but remains time-intensive and cognitively demanding, especially when clinicians must integrate gait videos and motion-capture data into structured reports. We present OGA-AID, a clinician-in-the-loop multi-agent large language model system for multimodal report drafting. The system coordinates 3 specialized agents to synthesize patient movement recordings, kinematic trajectories, and clinical profiles into structured assessments. Evaluated with expert physiotherapists on real patient data, OGA-AID consistently outperforms single-pass multimodal baselines with low error. In clinician-in-the-loop settings, brief expert preliminary notes further reduce error compared to reference assessments. Our findings demonstrate the feasibility of multimodal agentic systems for structured clinical gait assessment and highlight the complementary relationship between AI-assisted analysis and human clinical judgment in rehabilitation workflows.