Let the Fuzzy Rule Speak: Enhancing In-context Learning Debiasing with Interpretability

📄 arXiv: 2412.19018v4 📥 PDF

作者: Ruixi Lin, Yang You

分类: cs.CL

发布日期: 2024-12-26 (更新: 2025-02-11)


💡 一句话要点

提出FuRud,通过可解释的模糊规则优化,提升ICL文本分类的类别平衡性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 类别不平衡 模糊规则 去偏方法 文本分类

📋 核心要点

  1. 现有ICL方法在文本分类中存在类别准确率不平衡问题,导致部分类别预测不足,影响实际应用。
  2. FuRud通过模糊规则优化,针对不同概率范围进行类别概率校正,提升模型的可解释性和类别平衡性。
  3. 实验结果表明,FuRud在多个数据集上显著降低了类别偏差,并提高了整体准确率,优于现有方法。

📝 摘要(中文)

大型语言模型(LLMs)在使用上下文学习(ICL)进行文本分类时,经常面临类别准确率不平衡的问题,这限制了其在实际应用中的使用,因为错误分类可能导致用户不满或安全风险。重新训练LLM以解决数据或模型先验中的根本原因既不容易也不划算。本文深入研究了类别准确率不平衡问题,发现其原因是某些类别始终获得不成比例的高ICL概率,导致其他类别的预测不足和准确率降低。更重要的是,概率范围对不平衡的影响不同,从而可以进行精确的、范围特定的校正。我们提出FuRud(基于模糊规则优化的去偏方法),一种样本级别的类别概率校正方法。FuRud通过确定为什么某些类别需要校正,并为每个实例的类别概率定制调整,从而解决了可解释性挑战,该方法由具有三角隶属函数的模糊集提供支持,根据类别概率所属的范围转换类别概率。通过使用标记的ICL类别概率集解决非线性整数规划问题,以最小化类别准确率偏差(COBias)并最大化整体准确率,每个类别从19个三角隶属函数中选择一个最佳校正函数,而无需更新LLM,并且所选函数在推理时校正测试实例。在七个基准数据集上,FuRud将COBias降低了一半以上(56%),并将整体准确率相对提高了21%,优于最先进的去偏方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在使用上下文学习(ICL)进行文本分类时,出现的类别准确率不平衡问题。现有方法要么需要重新训练LLM,成本高昂,要么无法有效解决类别偏差问题,导致某些类别预测准确率低,影响模型的可靠性和公平性。

核心思路:论文的核心思路是,类别准确率不平衡源于不同类别获得不成比例的ICL概率,并且概率范围对不平衡的影响不同。因此,可以通过针对不同概率范围进行类别概率校正来解决这个问题。FuRud利用模糊规则,为每个类别选择最优的校正函数,从而实现样本级别的类别概率调整。

技术框架:FuRud方法主要包含以下几个阶段:1) 使用ICL获取训练集和测试集的类别概率;2) 定义一组三角隶属函数,每个函数代表一种概率范围的校正策略;3) 构建非线性整数规划问题,目标是最小化类别准确率偏差(COBias)并最大化整体准确率,通过求解该问题,为每个类别选择最优的校正函数;4) 在推理阶段,使用选择的校正函数对测试集的类别概率进行调整,从而提升类别平衡性和整体准确率。

关键创新:FuRud的关键创新在于:1) 提出了基于模糊规则的类别概率校正方法,能够针对不同概率范围进行精细化调整;2) 通过优化方法自动选择最优的校正函数,无需人工干预;3) 具有良好的可解释性,能够解释为什么某些类别需要校正以及如何进行校正。与现有方法相比,FuRud无需重新训练LLM,且能够更有效地解决类别偏差问题。

关键设计:FuRud的关键设计包括:1) 使用三角隶属函数来定义概率范围的校正策略,共19个函数;2) 定义类别准确率偏差(COBias)作为优化目标,用于衡量类别之间的准确率差异;3) 使用非线性整数规划来选择最优的校正函数,目标函数为最小化COBias并最大化整体准确率。优化问题的约束条件包括每个类别只能选择一个校正函数,以及校正后的概率值必须在0到1之间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FuRud在七个基准数据集上显著优于现有去偏方法。FuRud将类别准确率偏差(COBias)降低了56%以上,并将整体准确率相对提高了21%。这些结果表明,FuRud能够有效解决ICL文本分类中的类别不平衡问题,并提升模型的整体性能。

🎯 应用场景

FuRud可应用于各种文本分类任务,尤其是在需要高可靠性和公平性的场景中,例如情感分析、垃圾邮件检测、医疗诊断等。通过提升类别平衡性,FuRud可以减少错误分类带来的负面影响,提高用户满意度,并降低安全风险。该方法无需重新训练LLM,易于部署和应用,具有广泛的应用前景。

📄 摘要(原文)

Large language models (LLMs) often struggle with balanced class accuracy in text classification tasks using in-context learning (ICL), hindering some practical uses due to user dissatisfaction or safety risks caused by misclassifications. Retraining LLMs to address root causes in data or model priors is neither easy nor cost-effective. This paper delves deeper into the class accuracy imbalance issue, identifying that it arises because certain classes consistently receive disproportionately high ICL probabilities, causing under-prediction and lower accuracy for others. More importantly, probability ranges affect the imbalance differently, allowing for precise, range-specific corrections. We introduce FuRud (Fuzzy Rule Optimization-based Debiasing), a method for sample-level class probability correction. FuRud tackles interpretability challenges by determining why certain classes need corrections and tailoring adjustments for each instance's class probabilities which is powered by fuzzy sets with triangular membership functions, transforming a class probability based on the range it belongs to. By solving a nonlinear integer programming problem with a labeled set of ICL class probabilities to minimize class accuracy bias (COBias) and maximize overall accuracy, each class selects an optimal correction function from 19 triangular membership functions without updating an LLM, and the selected functions correct test instances at inference. Across seven benchmark datasets, FuRud reduces COBias by over half (56%) and improves overall accuracy by 21% relatively, outperforming state-of-the-art debiasing methods.