Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models

作者: Riccardo Cantini, Nicola Gabriele, Alessio Orsino, Domenico Talia

分类: cs.CL

发布日期: 2025-07-03

💡 一句话要点

推理语言模型更易受社会偏见影响：CLEAR-Bias基准测试揭示安全性隐患

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推理语言模型 社会偏见 对抗鲁棒性 CLEAR-Bias 越狱攻击

📋 核心要点

现有推理语言模型在复杂任务中表现出色，但其社会偏见鲁棒性仍是挑战。
论文利用CLEAR-Bias基准，评估推理语言模型在对抗偏见诱导方面的安全性。
实验表明，推理能力强的模型反而更容易受到偏见影响，需更关注偏见感知的推理设计。

📝 摘要（中文）

推理语言模型(RLMs)因其执行复杂、多步骤推理任务的能力而备受关注，这得益于诸如思维链(CoT)提示或微调推理轨迹等机制。尽管这些能力有望提高可靠性，但它们对社会偏见鲁棒性的影响仍不清楚。本文利用最初为大型语言模型(LLMs)设计的CLEAR-Bias基准，来研究RLMs对抗偏见诱导的对抗鲁棒性。我们系统地评估了最先进的RLMs在不同社会文化维度上的表现，使用LLM作为裁判的方法进行自动安全评分，并利用越狱技术来评估内置安全机制的强度。我们的评估解决了三个关键问题：(i)推理能力的引入如何影响模型的公平性和鲁棒性；(ii)针对推理进行微调的模型是否比依赖推理时CoT提示的模型表现出更高的安全性；(iii)针对偏见诱导的越狱攻击的成功率如何随所采用的推理机制而变化。研究结果揭示了推理能力与偏见安全性之间微妙的关系。令人惊讶的是，具有显式推理的模型，无论是通过CoT提示还是微调推理轨迹，通常比没有此类机制的基础模型更容易受到偏见诱导，这表明推理可能会无意中打开强化刻板印象的新途径。启用推理的模型似乎比依赖CoT提示的模型更安全，后者特别容易受到通过讲故事提示、虚构角色或奖励塑造指令进行的上下文重构攻击。这些结果挑战了推理本质上可以提高鲁棒性的假设，并强调需要更具偏见意识的推理设计方法。

🔬 方法详解

问题定义：论文旨在研究推理语言模型（RLMs）在面对社会偏见时的脆弱性。现有方法，如CoT prompting，虽然提升了推理能力，但可能无意中强化了刻板印象，导致模型更容易受到偏见诱导。因此，如何评估和提升RLMs的偏见安全性成为关键问题。

核心思路：论文的核心思路是利用对抗攻击（jailbreak attacks）来评估RLMs的偏见安全性。通过设计特定的提示语，诱导模型产生带有偏见或歧视性的输出，从而衡量模型的鲁棒性。同时，比较不同推理机制（如CoT prompting和fine-tuning）对模型安全性的影响。

技术框架：论文采用LLM-as-a-judge的方法进行自动安全评分。整体流程包括：1) 设计包含偏见诱导的提示语；2) 将提示语输入到不同的RLMs中；3) 使用LLM作为裁判，评估模型的输出是否包含偏见；4) 分析不同推理机制下，越狱攻击的成功率。

关键创新：论文的关键创新在于系统性地评估了RLMs在面对偏见诱导时的安全性，并揭示了推理能力与偏见安全性之间微妙的关系。与以往关注模型性能的研究不同，本文关注模型的社会影响，并提出了偏见感知的推理设计的重要性。

关键设计：论文使用了CLEAR-Bias基准，该基准包含多个社会文化维度，可以全面评估模型的偏见。同时，论文采用了多种越狱技术，包括上下文重构攻击（通过讲故事提示、虚构角色或奖励塑造指令），以测试模型的安全性。LLM裁判的评分标准是根据预定义的偏见类型进行设计的，以确保评估的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，具有显式推理能力的模型（无论是通过CoT提示还是微调推理轨迹）通常比没有此类机制的基础模型更容易受到偏见诱导。依赖CoT提示的模型特别容易受到上下文重构攻击。这些发现挑战了推理能够固有地提高模型鲁棒性的假设。

🎯 应用场景

该研究成果可应用于开发更安全、更公平的AI系统。通过评估和改进推理语言模型的偏见安全性，可以减少AI在招聘、信贷、法律等领域的歧视性行为，促进社会公平。未来的研究可以探索更有效的偏见缓解方法，并将其集成到推理语言模型的设计中。

📄 摘要（原文）

Reasoning Language Models (RLMs) have gained traction for their ability to perform complex, multi-step reasoning tasks through mechanisms such as Chain-of-Thought (CoT) prompting or fine-tuned reasoning traces. While these capabilities promise improved reliability, their impact on robustness to social biases remains unclear. In this work, we leverage the CLEAR-Bias benchmark, originally designed for Large Language Models (LLMs), to investigate the adversarial robustness of RLMs to bias elicitation. We systematically evaluate state-of-the-art RLMs across diverse sociocultural dimensions, using an LLM-as-a-judge approach for automated safety scoring and leveraging jailbreak techniques to assess the strength of built-in safety mechanisms. Our evaluation addresses three key questions: (i) how the introduction of reasoning capabilities affects model fairness and robustness; (ii) whether models fine-tuned for reasoning exhibit greater safety than those relying on CoT prompting at inference time; and (iii) how the success rate of jailbreak attacks targeting bias elicitation varies with the reasoning mechanisms employed. Our findings reveal a nuanced relationship between reasoning capabilities and bias safety. Surprisingly, models with explicit reasoning, whether via CoT prompting or fine-tuned reasoning traces, are generally more vulnerable to bias elicitation than base models without such mechanisms, suggesting reasoning may unintentionally open new pathways for stereotype reinforcement. Reasoning-enabled models appear somewhat safer than those relying on CoT prompting, which are particularly prone to contextual reframing attacks through storytelling prompts, fictional personas, or reward-shaped instructions. These results challenge the assumption that reasoning inherently improves robustness and underscore the need for more bias-aware approaches to reasoning design.

Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理