Identifying High-Confidence Social Biases in LLMs for Trustworthy Conversational Tutoring Agents

📄 arXiv: 2606.01584v1 📥 PDF

作者: Aitor Arronte Alvarez, Naiyi Xie Fincham

分类: cs.CL, cs.AI

发布日期: 2026-06-01

备注: Accepted for AIED 2026


💡 一句话要点

评估LLM在对话式辅导中高置信度社会偏见,提升教育场景可信度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会偏见 会话式辅导 教育应用 偏见检测

📋 核心要点

  1. 现有LLM在教育场景中可能放大社会偏见,影响其推理和反馈,对学生造成潜在负面影响。
  2. 论文提出一种新的数据集生成方法,通过重构学生-AI交互并注入受控偏见,模拟自然教学环境。
  3. 实验表明,LLM在会话式辅导中偏见检测更具挑战,且模型对错误判断表现出过度自信。

📝 摘要(中文)

会话式辅导智能体已被证明可以提高学习参与度和学生的学习成果,而大型语言模型(LLM)越来越多地应用于这些系统中,以提供可扩展的个性化反馈。然而,LLM可能会延续或放大刻板的社会偏见,这在教育环境中构成了特殊的风险。本研究评估了LLM在会话式辅导场景中的表现,以识别高置信度的社会偏见,即模型无法识别辅导对话中存在的偏见判断,同时对其评估保持高度自信的情况,这可能会影响其推理以及向学习者提供的反馈。我们提出了一种新的数据集生成方法,通过重新生成学生-AI导师的互动,并引入从基准数据集中提取的受控偏见,从而在自然教学条件下进行偏见评估。利用这些数据,我们评估了多个LLM检测刻板偏见的能力,并通过计算和人工评估分析了其响应背后的置信度和推理。我们发现,在会话式辅导环境中,偏见检测比在基于基准的评估中更具挑战性,并且最先进的LLM对其不正确的刻板偏见陈述评估过于自信。此外,模型置信度强烈影响推理和反馈,突出了基于LLM的辅导智能体中过度自信、有偏见行为的风险。最后,我们讨论了其影响、缓解考虑因素以及未来研究的方向。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在会话式辅导场景中存在的社会偏见问题。现有方法主要依赖于基准数据集进行偏见评估,但这些数据集无法充分模拟自然教学环境下的复杂交互,导致LLM在实际应用中仍然存在高置信度的偏见判断,影响其提供的反馈质量。

核心思路:论文的核心思路是通过构建一个更贴近真实教学场景的数据集,来评估LLM在会话式辅导中的偏见检测能力。该数据集通过重新生成学生-AI导师的互动,并引入从基准数据集中提取的受控偏见,从而模拟自然教学环境。通过分析LLM在处理这些数据时的置信度和推理过程,可以更准确地识别其存在的偏见。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据集生成:利用现有的学生-AI导师交互数据,重新生成对话,并在对话中插入包含受控偏见的语句。2) 模型评估:使用多个LLM对生成的数据集进行偏见检测,并记录模型的置信度和推理过程。3) 结果分析:通过计算和人工评估,分析LLM在偏见检测方面的表现,以及置信度对推理和反馈的影响。

关键创新:论文的关键创新在于提出了一种新的数据集生成方法,该方法能够模拟自然教学环境下的复杂交互,从而更准确地评估LLM在会话式辅导中的偏见检测能力。与现有方法相比,该方法能够更好地反映LLM在实际应用中的表现。

关键设计:论文的关键设计包括:1) 使用现有的学生-AI导师交互数据作为基础,保证生成的数据集具有一定的真实性。2) 从基准数据集中提取受控偏见,并将其插入到对话中,从而控制数据集中的偏见类型和程度。3) 使用多个LLM进行评估,并记录模型的置信度和推理过程,从而更全面地了解LLM在偏见检测方面的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在会话式辅导环境中偏见检测的难度显著增加,且模型对错误判断表现出过度自信。模型置信度与推理和反馈质量密切相关,高置信度可能导致更严重的偏见传播。这些发现强调了在教育应用中评估和缓解LLM偏见的重要性。

🎯 应用场景

该研究成果可应用于开发更值得信赖的AI辅导系统,减少偏见对学生学习的影响。通过改进LLM的偏见检测能力,可以提升教育公平性,并为其他涉及人机交互的敏感领域提供借鉴,例如心理咨询、职业指导等。

📄 摘要(原文)

Conversational tutoring agents have been shown to improve learning engagement and student outcomes, and large language models (LLMs) are increasingly used in these systems to provide scalable, personalized feedback. However, LLMs may perpetuate or amplify stereotypical social biases, posing particular risks in educational settings. In this study, we evaluate LLMs in conversational tutoring scenarios to identify high-confidence social biases, instances where models are unable to identify biased judgments in tutoring conversations while maintaining strong confidence in their assessments, potentially affecting their reasoning and the feedback they provide to learners. We present a new dataset generation method that enables bias evaluation under naturalistic instructional conditions by regenerating student-AI tutor interactions and introducing turns with controlled bias derived from a benchmark dataset. Using this data, we assess multiple LLMs' ability to detect stereotypical biases and analyze the confidence and reasoning underlying their responses through computational and human evaluations. We find that bias detection is substantially more challenging in conversational tutoring contexts than in benchmark-based evaluations, and that state-of-the-art LLMs are overconfident in their incorrect assessments of stereotypical bias statements. Moreover, model confidence strongly influences reasoning and feedback, highlighting the risks of overconfident, biased behavior in LLM-based tutoring agents. We conclude by discussing implications, mitigation considerations, and directions for future research.