COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models

作者: Arya Fayyazi, Mehdi Kamal, Massoud Pedram

分类: cs.CL, cs.AI

发布日期: 2026-05-28

备注: Proceeding of ICML 2026

💡 一句话要点

COFT：一种无训练的反事实-共形解码方法，用于大语言模型中公平的思维链推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 公平性 思维链 反事实推理 共形预测 偏差缓解 无训练方法

📋 核心要点

大型语言模型在思维链推理中会放大社会偏见，导致不公平的输出。
COFT通过反事实提示和共形预测，在解码时控制token级别的公平性，无需训练。
实验表明，COFT能显著降低偏差（30-55%），同时保持任务效用和语言质量。

📝 摘要（中文）

大型语言模型（LLM）在思维链（CoT）生成过程中可能会暴露并放大社会偏见。本文提出COFT（Chain of Fair Thought），一种无需训练的解码方法，可在解码时应用token级别的公平性控制，并为任何冻结的因果语言模型提供分布自由的边际有效性保证（在可交换性下）。COFT分三个阶段运行。首先，通过用中性token替换敏感跨度来创建掩码反事实提示。其次，通过轻量级的logit融合比较事实和掩码的logit分布，以减弱属性驱动的偏差。第三，使用双分支分裂共形校准，以用户选择的风险级别认证每一步的候选token集。在六个模型和多个偏差基准上评估COFT。结果表明，该方法将标准偏差指标降低了30-55%（中位数38%），同时保持了任务效用和语言质量。推理准确性在运行噪声范围内保持不变。计算开销适中，相当于一次额外的缓存前向传递（<=11%）。COFT提供了一条清晰、可审计的路径，以实现更安全的CoT生成，具有显著的偏差减少、可忽略的效用损失，并且不需要重新训练、辅助分类器或权重访问。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在思维链（CoT）推理过程中产生的社会偏见问题。现有方法要么需要大量的重新训练，要么依赖于辅助分类器，或者需要访问模型权重，这些都限制了它们的应用范围。此外，现有方法缺乏对公平性的严格保证。

核心思路：COFT的核心思路是在解码过程中，通过反事实推理和共形预测来减轻偏差。反事实推理通过修改输入提示来评估模型对敏感属性的依赖程度，而共形预测则用于生成具有置信度的候选token集，从而在保证公平性的前提下，选择最佳的token。

技术框架：COFT包含三个主要阶段： 1. 反事实提示生成：通过用中性token替换原始提示中的敏感跨度，生成反事实提示。 2. Logit融合：比较原始提示和反事实提示的logit分布，通过加权平均来减弱属性驱动的偏差。 3. 共形校准：使用双分支分裂共形校准，为每个token生成置信度，并根据用户设定的风险级别，选择候选token集。

关键创新：COFT的关键创新在于其无需训练的特性，以及其在解码时进行公平性控制的能力。与需要重新训练或访问模型权重的方法不同，COFT可以直接应用于任何冻结的因果语言模型。此外，COFT使用共形预测来提供分布自由的边际有效性保证，从而确保公平性。

关键设计：COFT的关键设计包括： 1. 敏感跨度识别：使用预定义的敏感属性列表来识别提示中的敏感跨度。 2. Logit融合权重：使用一个可调节的参数来控制原始提示和反事实提示的logit分布的融合程度。 3. 双分支分裂共形校准：将数据集分成两个分支，一个用于校准，另一个用于预测，从而避免过拟合。

📊 实验亮点

COFT在多个偏差基准测试中，将标准偏差指标降低了30-55%（中位数38%），同时保持了任务效用和语言质量。推理准确性在运行噪声范围内保持不变。计算开销适中，相当于一次额外的缓存前向传递（<=11%）。这些结果表明，COFT是一种有效的、高效的、且易于部署的公平性干预方法。

🎯 应用场景

COFT可应用于各种需要公平性和可信赖性的自然语言处理任务，例如：招聘筛选、贷款审批、医疗诊断等。通过减少LLM中的偏见，COFT有助于构建更公平、更可靠的人工智能系统，从而促进社会公平和包容。

📄 摘要（原文）

Large language models (LLMs) can reveal and amplify societal biases during chain-of-thought (CoT) generation. We present COFT (Chain of Fair Thought), a training-free decoding method that applies token-level fairness control at decode time, with distribution-free marginal validity guarantees (under exchangeability) for any frozen causal language model. COFT operates in three stages. First, it creates a masked counterfactual prompt by replacing sensitive spans with neutral tokens. Second, it compares the factual and masked logit distributions through lightweight logit fusion to attenuate attribute-driven biases. Third, it uses dual-branch split-conformal calibration to certify per-step candidate token sets at a user-chosen risk level. We evaluate COFT across six models and multiple bias benchmarks. Our method reduces standard bias metrics by 30-55% (median 38%) while preserving task utility and language quality. Reasoning accuracies remain unchanged within run-to-run noise margins. The computational overhead is modest, equivalent to one additional cached forward pass (<=11%). COFT offers a clear, auditable path to safer CoT generation with significant bias reduction, negligible utility loss, and no requirement for retraining, auxiliary classifiers, or weight access.

COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理