FairTune: A Bias-Aware Fine-Tuning Framework Towards Fair Heart Rate Prediction from PPG

📄 arXiv: 2509.16491v1 📥 PDF

作者: Lovely Yeswanth Panchumarthi, Saurabh Kataria, Yi Wu, Xiao Hu, Alex Fedorov, Hyunjung Gloria Kwak

分类: cs.LG, cs.CE

发布日期: 2025-09-20


💡 一句话要点

FairTune:一种偏见感知的微调框架,用于从PPG信号中实现公平的心率预测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心率预测 公平性 微调 光电容积脉搏波 偏见缓解 生理信号处理 基础模型

📋 核心要点

  1. 现有方法在利用生理数据预训练模型进行心率预测时,忽略了微调对人口统计公平性的影响,尤其是在领域迁移的情况下。
  2. FairTune框架通过集成类别加权、群体分布鲁棒优化和对抗性去偏等策略,在微调过程中显式地减少偏见,提升心率预测的公平性。
  3. 实验表明,FairTune中的IF和GroupDRO策略能在保证预测精度的前提下,有效缩小公平性差距,且缓解效果随部署领域变化。

📝 摘要(中文)

本文研究了在不同领域中,对基于光电容积脉搏波(PPG)信号预训练的基础模型进行微调,以提升心率(HR)预测的公平性问题。虽然微调可以显著降低平均绝对误差(高达80%),但同时也可能扩大公平性差距,尤其是在大型模型和显著的分布偏移下。为了解决这个问题,本文提出了FairTune,一个偏见感知的微调框架,并对三种缓解策略进行了基准测试:基于逆群体频率的类别加权(IF)、群体分布鲁棒优化(GroupDRO)和对抗性去偏(ADV)。实验结果表明,IF和GroupDRO在不牺牲准确性的前提下,显著缩小了公平性差距,且效果因部署领域而异。表征分析进一步表明,缓解技术重塑了内部嵌入,以减少人口统计聚类。研究结果强调,公平性并非微调的自然副产品,对于生理基础模型的公平部署,显式缓解至关重要。

🔬 方法详解

问题定义:论文旨在解决对PPG信号预训练的基础模型进行微调时,可能导致心率预测在不同人口统计群体(如性别)之间产生或加剧不公平性的问题。现有方法通常只关注微调后的预测精度,而忽略了公平性,尤其是在训练数据和部署数据存在分布差异的情况下,这种不公平性会更加明显。

核心思路:论文的核心思路是在微调过程中引入偏见感知机制,通过显式地缓解模型中的偏见,从而在保证预测精度的同时,提升心率预测的公平性。这种思路基于以下假设:模型在训练过程中学习到的表征可能包含与人口统计群体相关的偏见信息,通过调整训练目标或修改模型表征,可以减少这些偏见的影响。

技术框架:FairTune框架的核心是在标准微调流程中加入偏见缓解模块。具体来说,首先使用PPG-GPT模型在源数据集(ICU数据)上进行预训练,然后在目标数据集(可穿戴设备或智能手机数据)上进行微调。在微调过程中,FairTune集成了三种偏见缓解策略:1) 类别加权(IF):根据逆群体频率调整损失函数,对少数群体赋予更高的权重;2) 群体分布鲁棒优化(GroupDRO):优化最差群体的性能,确保模型在所有群体上都具有较好的泛化能力;3) 对抗性去偏(ADV):使用对抗训练,使模型难以从嵌入中预测人口统计信息。

关键创新:该论文的关键创新在于提出了FairTune框架,将偏见缓解策略集成到生理信号基础模型的微调过程中,从而在保证预测精度的同时,提升了心率预测的公平性。与现有方法相比,FairTune显式地关注了微调过程中的公平性问题,并提供了一种通用的框架,可以集成不同的偏见缓解策略。

关键设计:在类别加权(IF)中,损失函数根据每个样本所属群体的逆频率进行加权。在GroupDRO中,目标是最小化最差群体的损失,这可以通过迭代优化实现。在对抗性去偏(ADV)中,使用一个额外的判别器来预测样本的人口统计信息,并使用对抗损失来鼓励模型学习与人口统计信息无关的表征。具体参数设置和损失函数的选择取决于具体的偏见缓解策略和数据集。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,FairTune框架中的IF和GroupDRO策略能够在显著降低公平性差距的同时,保持甚至略微提升心率预测的精度。例如,在某些数据集上,IF和GroupDRO能够将公平性指标(如差异性影响)降低20%以上,同时平均绝对误差(MAE)仅略有增加或保持不变。此外,表征分析表明,FairTune能够有效地重塑内部嵌入,减少人口统计聚类,从而降低模型对人口统计信息的依赖。

🎯 应用场景

该研究成果可应用于各种心率监测场景,例如远程医疗、可穿戴设备健康监测、智能手机健康应用等。通过FairTune框架,可以确保心率预测在不同人群中具有公平性,避免因算法偏见导致某些群体受到不公正待遇。这对于提升医疗服务的公平性和可信度具有重要意义,并有助于推动个性化医疗的发展。

📄 摘要(原文)

Foundation models pretrained on physiological data such as photoplethysmography (PPG) signals are increasingly used to improve heart rate (HR) prediction across diverse settings. Fine-tuning these models for local deployment is often seen as a practical and scalable strategy. However, its impact on demographic fairness particularly under domain shifts remains underexplored. We fine-tune PPG-GPT a transformer-based foundation model pretrained on intensive care unit (ICU) data across three heterogeneous datasets (ICU, wearable, smartphone) and systematically evaluate the effects on HR prediction accuracy and gender fairness. While fine-tuning substantially reduces mean absolute error (up to 80%), it can simultaneously widen fairness gaps, especially in larger models and under significant distributional characteristics shifts. To address this, we introduce FairTune, a bias-aware fine-tuning framework in which we benchmark three mitigation strategies: class weighting based on inverse group frequency (IF), Group Distributionally Robust Optimization (GroupDRO), and adversarial debiasing (ADV). We find that IF and GroupDRO significantly reduce fairness gaps without compromising accuracy, with effectiveness varying by deployment domain. Representation analyses further reveal that mitigation techniques reshape internal embeddings to reduce demographic clustering. Our findings highlight that fairness does not emerge as a natural byproduct of fine-tuning and that explicit mitigation is essential for equitable deployment of physiological foundation models.