Fairness-Aware Streaming Feature Selection with Causal Graphs

📄 arXiv: 2408.12665v1 📥 PDF

作者: Leizhen Zhang, Lusi Li, Di Wu, Sheng Chen, Yi He

分类: cs.LG, cs.AI, cs.GR

发布日期: 2024-08-17

备注: This paper has been accepted by the 2024 IEEE International Conference on Systems, Man, and Cybernetics (SMC 2024)


💡 一句话要点

提出SFCF算法,利用因果图解决流式特征选择中的公平性与准确性权衡问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 流式特征选择 公平性 因果图 偏差消除 机器学习

📋 核心要点

  1. 现有流式特征选择方法难以在保证模型准确性的同时,兼顾公平性,容易引入偏差。
  2. SFCF算法通过构建因果图,建模特征、标签和受保护信息间的复杂关系,从而消除偏差。
  3. 实验表明,SFCF在效率、特征稀疏性和均等机会方面优于现有方法,性能显著提升。

📝 摘要(中文)

本文提出了一种名为“基于因果公平性的流式特征选择”(SFCF)算法,旨在解决流式特征选择中准确性和公平性之间的权衡问题。该方法构建了分别以预测标签和受保护特征为中心的两个因果图,从而对流式特征、标签和受保护信息之间复杂的关联结构进行建模。通过移除与受保护特征存在因果关系但与标签独立的特征,可以消除预测模型中的偏差。该方法还考虑了当大量特征被移除导致学习精度下降时,原本冗余的特征可能变得有用。在五个广泛使用的流式特征研究数据集上的实验结果表明,SFCF在特征选择的效率和稀疏性以及所得预测模型的均等机会方面优于六个竞争模型。

🔬 方法详解

问题定义:在流式特征选择中,如何在保证预测模型准确性的同时,避免模型受到敏感属性(受保护特征)的影响,即实现公平性是一个挑战。现有的方法可能无法有效地处理特征间的非关联性相关,导致偏差信息从看似无关的特征中泄露。此外,流式数据的特性使得特征的重要性随时间变化,如何动态地选择特征也是一个难点。

核心思路:SFCF的核心在于利用因果图来建模特征、预测标签和受保护特征之间的关系。通过识别并移除那些与受保护特征存在因果关系,但与预测标签独立的特征,可以有效地消除偏差。同时,该方法考虑到特征的动态重要性,允许原本冗余的特征在后期因精度下降而重新被选择。

技术框架:SFCF算法主要包含以下几个阶段:1) 因果图构建:分别构建以预测标签和受保护特征为中心的两个因果图,用于捕捉特征之间的因果关系。2) 特征选择:基于因果图,识别并移除与受保护特征存在因果关系但与预测标签独立的特征。3) 动态调整:根据模型精度,动态地调整特征选择策略,允许原本冗余的特征重新被选择。4) 模型训练:使用选择的特征子集训练预测模型。

关键创新:SFCF的关键创新在于将因果推理引入到流式特征选择中,通过因果图建模特征间的复杂关系,从而有效地消除偏差。与传统方法相比,SFCF能够更准确地识别并移除导致偏差的特征,同时考虑到特征的动态重要性,从而在保证公平性的同时,维持模型的准确性。

关键设计:SFCF算法的关键设计包括:1) 因果图学习方法:选择合适的因果图学习算法,以准确地捕捉特征之间的因果关系。2) 偏差消除策略:设计有效的策略,根据因果图识别并移除导致偏差的特征。3) 动态调整机制:设计合理的动态调整机制,以平衡模型的准确性和公平性。具体的参数设置、损失函数和网络结构等技术细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,SFCF算法在五个流式特征选择数据集上,相较于六个基线模型,在特征选择的效率和稀疏性以及所得预测模型的均等机会方面均表现出优越性。具体的性能提升幅度在论文中未明确给出量化数据,属于未知信息,但整体效果优于对比算法。

🎯 应用场景

SFCF算法可应用于各种需要公平性的流式数据分析场景,例如在线信贷风险评估、招聘系统、以及其他涉及敏感属性的决策系统。通过消除算法偏差,可以提高决策的公平性和透明度,避免歧视性结果,从而提升用户信任度和社会公平性。

📄 摘要(原文)

Its crux lies in the optimization of a tradeoff between accuracy and fairness of resultant models on the selected feature subset. The technical challenge of our setting is twofold: 1) streaming feature inputs, such that an informative feature may become obsolete or redundant for prediction if its information has been covered by other similar features that arrived prior to it, and 2) non-associational feature correlation, such that bias may be leaked from those seemingly admissible, non-protected features. To overcome this, we propose Streaming Feature Selection with Causal Fairness (SFCF) that builds two causal graphs egocentric to prediction label and protected feature, respectively, striving to model the complex correlation structure among streaming features, labels, and protected information. As such, bias can be eradicated from predictive modeling by removing those features being causally correlated with the protected feature yet independent to the labels. We theorize that the originally redundant features for prediction can later become admissible, when the learning accuracy is compromised by the large number of removed features (non-protected but can be used to reconstruct bias information). We benchmark SFCF\ on five datasets widely used in streaming feature research, and the results substantiate its performance superiority over six rival models in terms of efficiency and sparsity of feature selection and equalized odds of the resultant predictive models.