Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions

作者: Heejoon Koo, Yoon Tae Kim, Miika Toikkanen, June-Woo Kim

分类: eess.AS, cs.AI, cs.SD

发布日期: 2026-05-28

备注: 2 figures, 4 tables, and 5 pages

💡 一句话要点

提出因果干预的联邦域泛化方法，解决呼吸音分类中听诊器伪相关问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 呼吸音分类 联邦域泛化 因果干预 风格解耦 反事实增强

📋 核心要点

呼吸音分类受听诊器差异影响，导致模型泛化性差，现有方法难以有效解耦风格和内容。
提出因果干预的联邦域泛化框架，通过风格扰动、反事实文本增强和梯度对齐，学习设备不变的表示。
在ICBHI和SPRSound数据集上，该方法优于传统数据增强和联邦学习基线，验证了其有效性。

📝 摘要（中文）

人工智能驱动的呼吸音分类(RSC)在自动化肺部疾病检测方面具有前景，但多站点部署受到听诊器间差异的阻碍。我们引入了一种联邦域泛化(FedDG)公式，用于解决听诊器引起的设备差异下的RSC问题，其中客户端使用异构设备，并且模型在未见过的设备上进行评估。我们的经验分析表明，听诊器引起的风格和疾病特定内容紧密纠缠，使得确定性的风格移除不可靠。为此，我们提出了一个受因果关系启发的模态FedDG框架，该框架结合了：(i)一个受因果关系启发的设备风格干预网络，该网络执行内容保持的风格扰动，(ii)中和元数据捷径的反事实文本增强，以及(iii)促进跨客户端设备不变表示的梯度对齐。该框架建立在多模态语言-音频预训练模型之上，在ICBHI和SPRSound数据集的留一设备验证中，优于传统的数据增强和联邦学习基线。

🔬 方法详解

问题定义：论文旨在解决呼吸音分类任务中，由于不同听诊器设备造成的领域差异问题。现有方法，如直接移除风格信息，无法有效分离听诊器风格和疾病内容，导致模型在未见过的听诊器设备上表现不佳。这种听诊器引入的伪相关性（shortcut）是模型泛化的主要障碍。

核心思路：论文的核心思路是利用因果干预的思想，通过主动干预听诊器风格，并结合反事实文本增强，来打破听诊器风格和疾病内容之间的伪相关性。通过学习设备不变的表示，提高模型在未见过的听诊器设备上的泛化能力。

技术框架：整体框架是一个联邦学习的架构，包含多个客户端和一个服务器。每个客户端拥有来自不同听诊器设备的数据。框架包含三个主要模块：(1) 因果风格干预网络：对音频数据进行风格扰动，生成新的训练样本。(2) 反事实文本增强：通过修改元数据（如听诊器型号），生成反事实样本，中和元数据捷径。(3) 梯度对齐：通过梯度对齐，使得不同客户端学习到的表示更加一致，从而提高模型的泛化能力。

关键创新：最重要的技术创新点在于将因果干预的思想引入到联邦域泛化中，通过主动干预听诊器风格，打破了听诊器风格和疾病内容之间的伪相关性。此外，结合反事实文本增强和梯度对齐，进一步提高了模型的泛化能力。

关键设计：(1) 因果风格干预网络：具体实现方式未知，但其目标是生成内容保持的风格扰动。(2) 反事实文本增强：通过替换元数据中的听诊器型号，生成反事实样本。(3) 梯度对齐：具体实现方式未知，但其目标是使得不同客户端的梯度方向尽可能一致。(4) 模型基于多模态语言-音频预训练模型，具体模型结构未知。

🖼️ 关键图片

📊 实验亮点

该方法在ICBHI和SPRSound数据集上进行了留一设备验证，实验结果表明，该方法优于传统的数据增强和联邦学习基线。具体的性能提升数据未知，但论文强调了该方法在解决听诊器设备差异问题上的有效性。

🎯 应用场景

该研究成果可应用于远程医疗、移动医疗等场景，实现自动化的肺部疾病筛查和诊断。通过解决听诊器设备差异带来的泛化性问题，可以提高呼吸音分类模型在不同医疗机构和地区的适用性，降低医疗成本，提升诊断效率。

📄 摘要（原文）

AI-driven respiratory sound classification (RSC) is promising for automated pulmonary disease detection, yet multi-site deployment is hindered by inter-stethoscope variability. We introduce a federated domain generalization (FedDG) formulation for RSC under stethoscope-induced device shifts, where clients use heterogeneous devices and the model is evaluated on unseen devices. Our empirical analysis shows that stethoscope-induced style and disease-specific content are tightly entangled, making deterministic style removal unreliable. In response, we propose a causality-inspired multimodal FedDG framework that combines: (i) a causality-inspired device style intervention network that performs content-preserving style perturbations, (ii) counterfactual text augmentation that neutralizes metadata shortcuts, and (iii) gradient alignment that facilitates device-invariant representations across clients. Built on a multimodal language-audio pretraining model, it outperforms conventional data augmentation and federated learning baselines in leave-one-device-out validation on ICBHI and SPRSound datasets. Code will be released upon publication.

Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理