Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions
作者: Heejoon Koo, Yoon Tae Kim, Miika Toikkanen, June-Woo Kim
分类: eess.AS, cs.AI, cs.SD
发布日期: 2026-05-28
备注: 2 figures, 4 tables, and 5 pages
💡 一句话要点
提出因果干预的联邦域泛化方法,解决呼吸音分类中听诊器伪相关问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 呼吸音分类 联邦域泛化 因果干预 风格解耦 反事实增强
📋 核心要点
- 呼吸音分类受听诊器差异影响,导致模型泛化性差,现有方法难以有效解耦风格和内容。
- 提出因果干预的联邦域泛化框架,通过风格扰动、反事实文本增强和梯度对齐,学习设备不变的表示。
- 在ICBHI和SPRSound数据集上,该方法优于传统数据增强和联邦学习基线,验证了其有效性。
📝 摘要(中文)
人工智能驱动的呼吸音分类(RSC)在自动化肺部疾病检测方面具有前景,但多站点部署受到听诊器间差异的阻碍。我们引入了一种联邦域泛化(FedDG)公式,用于解决听诊器引起的设备差异下的RSC问题,其中客户端使用异构设备,并且模型在未见过的设备上进行评估。我们的经验分析表明,听诊器引起的风格和疾病特定内容紧密纠缠,使得确定性的风格移除不可靠。为此,我们提出了一个受因果关系启发的模态FedDG框架,该框架结合了:(i)一个受因果关系启发的设备风格干预网络,该网络执行内容保持的风格扰动,(ii)中和元数据捷径的反事实文本增强,以及(iii)促进跨客户端设备不变表示的梯度对齐。该框架建立在多模态语言-音频预训练模型之上,在ICBHI和SPRSound数据集的留一设备验证中,优于传统的数据增强和联邦学习基线。
🔬 方法详解
问题定义:论文旨在解决呼吸音分类任务中,由于不同听诊器设备造成的领域差异问题。现有方法,如直接移除风格信息,无法有效分离听诊器风格和疾病内容,导致模型在未见过的听诊器设备上表现不佳。这种听诊器引入的伪相关性(shortcut)是模型泛化的主要障碍。
核心思路:论文的核心思路是利用因果干预的思想,通过主动干预听诊器风格,并结合反事实文本增强,来打破听诊器风格和疾病内容之间的伪相关性。通过学习设备不变的表示,提高模型在未见过的听诊器设备上的泛化能力。
技术框架:整体框架是一个联邦学习的架构,包含多个客户端和一个服务器。每个客户端拥有来自不同听诊器设备的数据。框架包含三个主要模块:(1) 因果风格干预网络:对音频数据进行风格扰动,生成新的训练样本。(2) 反事实文本增强:通过修改元数据(如听诊器型号),生成反事实样本,中和元数据捷径。(3) 梯度对齐:通过梯度对齐,使得不同客户端学习到的表示更加一致,从而提高模型的泛化能力。
关键创新:最重要的技术创新点在于将因果干预的思想引入到联邦域泛化中,通过主动干预听诊器风格,打破了听诊器风格和疾病内容之间的伪相关性。此外,结合反事实文本增强和梯度对齐,进一步提高了模型的泛化能力。
关键设计:(1) 因果风格干预网络:具体实现方式未知,但其目标是生成内容保持的风格扰动。(2) 反事实文本增强:通过替换元数据中的听诊器型号,生成反事实样本。(3) 梯度对齐:具体实现方式未知,但其目标是使得不同客户端的梯度方向尽可能一致。(4) 模型基于多模态语言-音频预训练模型,具体模型结构未知。
🖼️ 关键图片
📊 实验亮点
该方法在ICBHI和SPRSound数据集上进行了留一设备验证,实验结果表明,该方法优于传统的数据增强和联邦学习基线。具体的性能提升数据未知,但论文强调了该方法在解决听诊器设备差异问题上的有效性。
🎯 应用场景
该研究成果可应用于远程医疗、移动医疗等场景,实现自动化的肺部疾病筛查和诊断。通过解决听诊器设备差异带来的泛化性问题,可以提高呼吸音分类模型在不同医疗机构和地区的适用性,降低医疗成本,提升诊断效率。
📄 摘要(原文)
AI-driven respiratory sound classification (RSC) is promising for automated pulmonary disease detection, yet multi-site deployment is hindered by inter-stethoscope variability. We introduce a federated domain generalization (FedDG) formulation for RSC under stethoscope-induced device shifts, where clients use heterogeneous devices and the model is evaluated on unseen devices. Our empirical analysis shows that stethoscope-induced style and disease-specific content are tightly entangled, making deterministic style removal unreliable. In response, we propose a causality-inspired multimodal FedDG framework that combines: (i) a causality-inspired device style intervention network that performs content-preserving style perturbations, (ii) counterfactual text augmentation that neutralizes metadata shortcuts, and (iii) gradient alignment that facilitates device-invariant representations across clients. Built on a multimodal language-audio pretraining model, it outperforms conventional data augmentation and federated learning baselines in leave-one-device-out validation on ICBHI and SPRSound datasets. Code will be released upon publication.