COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models
作者: Arya Fayyazi, Mehdi Kamal, Massoud Pedram
分类: cs.CL, cs.AI
发布日期: 2026-05-28
备注: Proceeding of ICML 2026
💡 一句话要点
COFT:一种无训练的反事实-共形解码方法,用于大语言模型中公平的思维链推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 公平性 思维链 反事实推理 共形预测 偏差缓解 无训练方法
📋 核心要点
- 大型语言模型在思维链推理中会放大社会偏见,导致不公平的输出。
- COFT通过反事实提示和共形预测,在解码时控制token级别的公平性,无需训练。
- 实验表明,COFT能显著降低偏差(30-55%),同时保持任务效用和语言质量。
📝 摘要(中文)
大型语言模型(LLM)在思维链(CoT)生成过程中可能会暴露并放大社会偏见。本文提出COFT(Chain of Fair Thought),一种无需训练的解码方法,可在解码时应用token级别的公平性控制,并为任何冻结的因果语言模型提供分布自由的边际有效性保证(在可交换性下)。COFT分三个阶段运行。首先,通过用中性token替换敏感跨度来创建掩码反事实提示。其次,通过轻量级的logit融合比较事实和掩码的logit分布,以减弱属性驱动的偏差。第三,使用双分支分裂共形校准,以用户选择的风险级别认证每一步的候选token集。在六个模型和多个偏差基准上评估COFT。结果表明,该方法将标准偏差指标降低了30-55%(中位数38%),同时保持了任务效用和语言质量。推理准确性在运行噪声范围内保持不变。计算开销适中,相当于一次额外的缓存前向传递(<=11%)。COFT提供了一条清晰、可审计的路径,以实现更安全的CoT生成,具有显著的偏差减少、可忽略的效用损失,并且不需要重新训练、辅助分类器或权重访问。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在思维链(CoT)推理过程中产生的社会偏见问题。现有方法要么需要大量的重新训练,要么依赖于辅助分类器,或者需要访问模型权重,这些都限制了它们的应用范围。此外,现有方法缺乏对公平性的严格保证。
核心思路:COFT的核心思路是在解码过程中,通过反事实推理和共形预测来减轻偏差。反事实推理通过修改输入提示来评估模型对敏感属性的依赖程度,而共形预测则用于生成具有置信度的候选token集,从而在保证公平性的前提下,选择最佳的token。
技术框架:COFT包含三个主要阶段: 1. 反事实提示生成:通过用中性token替换原始提示中的敏感跨度,生成反事实提示。 2. Logit融合:比较原始提示和反事实提示的logit分布,通过加权平均来减弱属性驱动的偏差。 3. 共形校准:使用双分支分裂共形校准,为每个token生成置信度,并根据用户设定的风险级别,选择候选token集。
关键创新:COFT的关键创新在于其无需训练的特性,以及其在解码时进行公平性控制的能力。与需要重新训练或访问模型权重的方法不同,COFT可以直接应用于任何冻结的因果语言模型。此外,COFT使用共形预测来提供分布自由的边际有效性保证,从而确保公平性。
关键设计:COFT的关键设计包括: 1. 敏感跨度识别:使用预定义的敏感属性列表来识别提示中的敏感跨度。 2. Logit融合权重:使用一个可调节的参数来控制原始提示和反事实提示的logit分布的融合程度。 3. 双分支分裂共形校准:将数据集分成两个分支,一个用于校准,另一个用于预测,从而避免过拟合。
📊 实验亮点
COFT在多个偏差基准测试中,将标准偏差指标降低了30-55%(中位数38%),同时保持了任务效用和语言质量。推理准确性在运行噪声范围内保持不变。计算开销适中,相当于一次额外的缓存前向传递(<=11%)。这些结果表明,COFT是一种有效的、高效的、且易于部署的公平性干预方法。
🎯 应用场景
COFT可应用于各种需要公平性和可信赖性的自然语言处理任务,例如:招聘筛选、贷款审批、医疗诊断等。通过减少LLM中的偏见,COFT有助于构建更公平、更可靠的人工智能系统,从而促进社会公平和包容。
📄 摘要(原文)
Large language models (LLMs) can reveal and amplify societal biases during chain-of-thought (CoT) generation. We present COFT (Chain of Fair Thought), a training-free decoding method that applies token-level fairness control at decode time, with distribution-free marginal validity guarantees (under exchangeability) for any frozen causal language model. COFT operates in three stages. First, it creates a masked counterfactual prompt by replacing sensitive spans with neutral tokens. Second, it compares the factual and masked logit distributions through lightweight logit fusion to attenuate attribute-driven biases. Third, it uses dual-branch split-conformal calibration to certify per-step candidate token sets at a user-chosen risk level. We evaluate COFT across six models and multiple bias benchmarks. Our method reduces standard bias metrics by 30-55% (median 38%) while preserving task utility and language quality. Reasoning accuracies remain unchanged within run-to-run noise margins. The computational overhead is modest, equivalent to one additional cached forward pass (<=11%). COFT offers a clear, auditable path to safer CoT generation with significant bias reduction, negligible utility loss, and no requirement for retraining, auxiliary classifiers, or weight access.