Gender Bias in LLMs: Preliminary Evidence from Shared Parenting Scenario in Czech Family Law

📄 arXiv: 2601.05879v1 📥 PDF

作者: Jakub Harasta, Matej Vasina, Martin Kornel, Tomas Foltynek

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-01-09

备注: Accepted at AI for Access to Justice, Dispute Resolution, and Data Access (AIDA2J) at Jurix 2025, Torino, Italy


💡 一句话要点

评估大型语言模型在捷克家庭法共享育儿场景中的性别偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 性别偏见 家庭法 共享育儿 法律人工智能

📋 核心要点

  1. 现有法律自助服务中,用户依赖LLM可能因模型偏见而产生不公正结果,亟需评估LLM在法律领域的公平性。
  2. 本研究通过设计基于捷克家庭法的共享育儿场景,评估主流LLM在处理性别化和中性化案件时的偏见。
  3. 实验结果表明,不同LLM在共享育儿比例的建议上存在差异,部分模型表现出性别依赖的模式,提示潜在偏见。

📝 摘要(中文)

由于诉诸司法的途径受限,越来越多的人依赖大型语言模型(LLMs)寻求法律自助。用户通常凭直觉使用这些工具,可能基于不完整、不正确或有偏见的输出形成期望。本研究探讨了主流LLMs在回应一个现实的家庭法场景时是否表现出性别偏见。我们设计了一个基于捷克家庭法的离婚场景,并以完全零样本的方式评估了四个先进的LLMs:GPT-5 nano、Claude Haiku 4.5、Gemini 2.5 Flash和Llama 3.3。我们部署了两个版本的场景,一个使用性别化的名字,另一个使用中性的标签,以建立比较基线。我们进一步引入了九个与法律相关的因素,这些因素改变了案件的事实情况,并测试这些变化是否影响了模型提出的共享育儿比例。初步结果突出了不同模型之间的差异,并表明某些系统生成的结果中存在性别依赖模式。研究结果强调了用户依赖LLMs获取法律指导的风险,以及在敏感法律背景下更稳健地评估模型行为的必要性。我们展示了探索性和描述性证据,旨在识别系统性不对称,而不是建立因果效应。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLMs)在处理涉及家庭法的具体场景时是否存在性别偏见。现有方法缺乏对LLMs在法律领域,特别是涉及性别敏感问题的公平性和公正性的系统评估。用户依赖这些模型进行法律自助可能导致不公正的结果,因此需要识别和减轻潜在的偏见。

核心思路:核心思路是通过设计一个基于捷克家庭法的共享育儿场景,并使用性别化和中性化的输入来测试LLMs的输出。通过比较模型在不同输入下的表现,可以识别是否存在性别偏见。此外,通过改变案件的事实情况(例如,收入、住房等),可以进一步评估模型对不同因素的敏感性。

技术框架:该研究采用零样本学习设置,直接向LLMs提出问题,无需任何微调或训练。研究流程包括:1) 设计基于捷克家庭法的离婚场景;2) 创建性别化和中性化的输入版本;3) 使用九个法律相关因素改变案件的事实情况;4) 评估四个LLMs(GPT-5 nano、Claude Haiku 4.5、Gemini 2.5 Flash和Llama 3.3)的输出;5) 分析模型在不同输入下的共享育儿比例建议。

关键创新:该研究的关键创新在于其评估LLMs在法律领域性别偏见的方法。通过使用真实世界的法律场景和控制变量,该研究能够识别潜在的偏见模式。此外,该研究还引入了一种新的评估框架,可以用于评估其他LLMs在其他法律领域的公平性。

关键设计:关键设计包括:1) 使用捷克家庭法作为案例背景,确保法律场景的真实性和相关性;2) 创建性别化和中性化的输入版本,以便比较模型在不同输入下的表现;3) 使用九个法律相关因素改变案件的事实情况,以评估模型对不同因素的敏感性;4) 采用零样本学习设置,避免对模型进行微调或训练,从而更好地反映用户在实际使用中的情况。

📊 实验亮点

实验结果表明,不同LLMs在共享育儿比例的建议上存在显著差异。部分模型在处理性别化输入时表现出性别依赖的模式,例如,在某些情况下,模型更倾向于将更多的育儿时间分配给父亲或母亲,具体取决于案件的事实情况。这些发现强调了LLMs在法律领域存在潜在偏见,并需要进一步研究和改进。

🎯 应用场景

该研究结果可应用于法律人工智能系统的开发和评估,以确保其公平性和公正性。律师、法官和法律科技公司可以利用这些发现来识别和减轻LLMs中的性别偏见,从而为用户提供更可靠和公正的法律建议。此外,该研究还可以促进对人工智能伦理和法律责任的更广泛讨论。

📄 摘要(原文)

Access to justice remains limited for many people, leading laypersons to increasingly rely on Large Language Models (LLMs) for legal self-help. Laypeople use these tools intuitively, which may lead them to form expectations based on incomplete, incorrect, or biased outputs. This study examines whether leading LLMs exhibit gender bias in their responses to a realistic family law scenario. We present an expert-designed divorce scenario grounded in Czech family law and evaluate four state-of-the-art LLMs GPT-5 nano, Claude Haiku 4.5, Gemini 2.5 Flash, and Llama 3.3 in a fully zero-shot interaction. We deploy two versions of the scenario, one with gendered names and one with neutral labels, to establish a baseline for comparison. We further introduce nine legally relevant factors that vary the factual circumstances of the case and test whether these variations influence the models' proposed shared-parenting ratios. Our preliminary results highlight differences across models and suggest gender-dependent patterns in the outcomes generated by some systems. The findings underscore both the risks associated with laypeople's reliance on LLMs for legal guidance and the need for more robust evaluation of model behavior in sensitive legal contexts. We present exploratory and descriptive evidence intended to identify systematic asymmetries rather than to establish causal effects.