Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

作者: Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming Li

分类: cs.SD, cs.AI, eess.AS

发布日期: 2024-09-05 (更新: 2025-04-22)

备注: Submitted to CSL

💡 一句话要点

提出MLVAS系统，利用多模态喉镜视频分析辅助声带麻痹诊断

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 喉镜视频分析 声带麻痹诊断 多模态融合 声门分割 扩散模型

📋 核心要点

现有喉镜视频分析依赖人工，耗时且主观，缺乏客观量化指标。
MLVAS系统融合音频和视频信息，自动提取关键片段和特征，辅助医生诊断。
实验表明，该系统在声门分割和声带麻痹分类任务上表现良好，提供可靠的客观指标。

📝 摘要（中文）

本文提出了一种多模态喉镜视频分析系统（MLVAS），该系统利用音频和视频数据，从原始喉镜频闪视频中自动提取关键视频片段和指标，以辅助临床评估。该系统集成了基于视频的声门检测和音频关键词识别方法，分析视频和音频数据，识别患者发声并优化视频重点，确保对声带运动的最佳检查。除了从原始喉镜视频中提取关键视频片段外，MLVAS还能够生成有效的音频和视觉特征，用于声带麻痹（VFP）检测。利用预训练的音频编码器对患者声音进行编码，以获得音频特征。通过测量左右声带相对于估计的声门中线的角度偏差，在分割的声门掩模上生成视觉特征。为了获得更好的掩模，我们引入了一种基于扩散的细化方法，该方法遵循传统的U-Net分割，以减少假阳性。我们进行了多次消融研究，以证明所提出的MLVAS中每个模块和模态的有效性。在公共分割数据集上的实验结果表明了我们提出的分割模块的有效性。此外，在真实临床数据集上的单侧VFP分类结果证明了MLVAS提供可靠和客观指标以及可视化以辅助临床诊断的能力。

🔬 方法详解

问题定义：声带麻痹的诊断依赖于喉镜视频的观察和分析，但人工分析耗时且主观，缺乏客观的量化指标。现有方法难以有效利用视频和音频信息，难以自动提取关键视频片段和特征，从而影响诊断效率和准确性。

核心思路：MLVAS的核心思路是融合喉镜视频中的视频和音频信息，通过自动化的方式提取关键视频片段和特征，从而辅助医生进行声带麻痹的诊断。通过视频分析提取声门区域，通过音频分析识别患者发声，并将两者结合以优化视频片段的选择。

技术框架：MLVAS系统主要包含以下几个模块：1) 基于视频的声门检测模块，用于分割声门区域；2) 音频关键词识别模块，用于识别患者发声；3) 视频片段提取模块，用于提取关键视频片段；4) 音频特征提取模块，利用预训练的音频编码器提取音频特征；5) 视觉特征提取模块，通过测量左右声带相对于声门中线的角度偏差提取视觉特征；6) 基于扩散模型的声门掩模细化模块，用于提升声门分割的精度。

关键创新：该论文的关键创新在于：1) 提出了一个多模态的喉镜视频分析系统，融合了视频和音频信息；2) 引入了基于扩散模型的声门掩模细化模块，提高了声门分割的精度；3) 提出了基于声带角度偏差的视觉特征，能够有效反映声带运动的异常。

关键设计：在声门分割模块中，采用了U-Net结构，并引入了基于扩散模型的细化步骤，以减少假阳性。在视觉特征提取中，通过计算左右声带相对于声门中线的角度偏差来量化声带运动的异常。音频特征提取使用了预训练的音频编码器，例如VGGish，以获得高质量的音频表征。

🖼️ 关键图片

📊 实验亮点

在公共声门分割数据集上的实验结果表明，所提出的分割模块有效提升了分割精度。在真实临床数据集上的单侧VFP分类实验中，MLVAS能够提供可靠和客观的指标，辅助临床诊断。消融实验证明了各个模块和模态的有效性，例如，扩散细化模块能够显著提升分割性能。

🎯 应用场景

该研究成果可应用于临床声带麻痹的辅助诊断，提高诊断效率和准确性。通过提供客观的量化指标和可视化结果，可以帮助医生更好地评估患者病情，制定治疗方案。未来，该系统有望扩展到其他喉部疾病的诊断，并集成到远程医疗平台中，实现远程诊断和咨询。

📄 摘要（原文）

This paper presents the Multimodal Laryngoscopic Video Analyzing System (MLVAS), a novel system that leverages both audio and video data to automatically extract key video segments and metrics from raw laryngeal videostroboscopic videos for assisted clinical assessment. The system integrates video-based glottis detection with an audio keyword spotting method to analyze both video and audio data, identifying patient vocalizations and refining video highlights to ensure optimal inspection of vocal fold movements. Beyond key video segment extraction from the raw laryngeal videos, MLVAS is able to generate effective audio and visual features for Vocal Fold Paralysis (VFP) detection. Pre-trained audio encoders are utilized to encode the patient voice to get the audio features. Visual features are generated by measuring the angle deviation of both the left and right vocal folds to the estimated glottal midline on the segmented glottis masks. To get better masks, we introduce a diffusion-based refinement that follows traditional U-Net segmentation to reduce false positives. We conducted several ablation studies to demonstrate the effectiveness of each module and modalities in the proposed MLVAS. The experimental results on a public segmentation dataset show the effectiveness of our proposed segmentation module. In addition, unilateral VFP classification results on a real-world clinic dataset demonstrate MLVAS's ability of providing reliable and objective metrics as well as visualization for assisted clinical diagnosis.

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理