AI for Scaling Legal Reform: Mapping and Redacting Racial Covenants in Santa Clara County

📄 arXiv: 2503.03888v2 📥 PDF

作者: Faiz Surani, Mirac Suzgun, Vyoma Raman, Christopher D. Manning, Peter Henderson, Daniel E. Ho

分类: cs.CL

发布日期: 2025-02-12 (更新: 2025-03-07)

备注: https://reglab.github.io/racialcovenants/


💡 一句话要点

利用AI加速法律改革:在圣克拉拉县进行种族契约的识别与编辑

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言处理 大型语言模型 法律文本分析 种族歧视 房产契约 信息抽取 文本分类

📋 核心要点

  1. 美国房产记录中存在大量种族限制性契约,人工审查成本高昂且效率低下,难以满足法律改革的需求。
  2. 论文提出了一种基于微调开放大型语言模型的方法,用于高精度、高召回地检测房产契约中的种族歧视条款。
  3. 实验表明,该系统可显著减少人工工作量,降低成本,并揭示了种族契约使用的历史模式和地理分布。

📝 摘要(中文)

鉴于法律、法规和记录的数量、复杂性和相互依赖性,法律改革可能充满挑战。一个显著的例子是限制和移除种族限制性契约,即历史上禁止特定种族个人购买房屋的房产契约条款。尽管最高法院于1948年裁定此类种族契约不可执行,但它们仍然存在于美国各地的房产记录中。包括加利福尼亚州在内的许多司法管辖区已采取行动识别和删除这些条款,加州于2021年强制所有县实施这一流程。然而,规模可能非常庞大,仅圣克拉拉县(SCC)就有超过2400万份房产契约文件,纯粹的人工审查是不可行的。我们提出了一种新颖的方法来解决这个紧迫的问题,该方法是通过与SCC Clerk-Recorder's Office合作开发的。首先,我们利用一个开放的大型语言模型,对其进行微调,以高精度和高召回率检测种族契约。据估计,该系统可减少86,500人时的人工工作量,并且成本低于同类商业闭源模型的2%。其次,我们展示了该县如何将该模型整合到负责任的运营实践中,包括法律审查和创建历史登记处,并发布我们的模型以帮助数百个从事类似工作的司法管辖区。最后,我们的结果揭示了种族契约使用的不同时期、明显的地理集群以及少数开发商在维持住房歧视中的不成比例的作用。我们估计,到1950年,该县四分之一的房产都受到种族契约的约束。

🔬 方法详解

问题定义:论文旨在解决大规模房产记录中种族限制性契约的自动识别与编辑问题。现有方法主要依赖人工审查,效率低下且成本高昂,难以应对海量数据。此外,商业闭源模型成本较高,限制了其在公共领域的应用。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大文本理解能力,通过微调使其能够准确识别房产契约中的种族歧视条款。通过使用开源LLM,降低了部署成本,并促进了模型的共享和复用。

技术框架:整体流程包括以下几个阶段:1) 数据收集与标注:收集圣克拉拉县的房产契约数据,并进行人工标注,区分包含种族契约和不包含种族契约的文本。2) 模型微调:使用标注数据对开源LLM进行微调,使其适应种族契约识别任务。3) 模型评估:评估微调后的模型在测试集上的性能,包括精度和召回率。4) 系统集成:将模型集成到圣克拉拉县的法律审查流程中,辅助人工审查,并创建历史登记处。

关键创新:论文的关键创新在于将开源大型语言模型应用于法律文本分析领域,并针对种族契约识别任务进行了微调。与传统的基于规则或机器学习的方法相比,LLM能够更好地理解复杂的法律文本,并具有更高的识别精度和召回率。此外,使用开源模型降低了成本,并促进了模型的共享和复用。

关键设计:论文使用了开源LLM(具体模型名称未知),并使用标注数据进行微调。微调过程中,可能使用了交叉熵损失函数来优化模型参数。具体的网络结构和参数设置在论文中可能没有详细描述,需要参考相关LLM的文献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统能够以高精度和高召回率检测种族契约,估计可减少86,500人时的人工工作量,并且成本低于同类商业闭源模型的2%。结果还揭示了种族契约使用的历史模式和地理分布,估计到1950年,该县四分之一的房产都受到种族契约的约束。

🎯 应用场景

该研究成果可广泛应用于法律文本分析、历史文献挖掘和社会公平研究等领域。通过自动识别和编辑种族歧视性条款,有助于消除历史遗留问题,促进社会公平。该方法还可以推广到其他类型的法律文本分析任务,例如合同审查、法律咨询等。

📄 摘要(原文)

Legal reform can be challenging in light of the volume, complexity, and interdependence of laws, codes, and records. One salient example of this challenge is the effort to restrict and remove racially restrictive covenants, clauses in property deeds that historically barred individuals of specific races from purchasing homes. Despite the Supreme Court holding such racial covenants unenforceable in 1948, they persist in property records across the United States. Many jurisdictions have moved to identify and strike these provisions, including California, which mandated in 2021 that all counties implement such a process. Yet the scale can be overwhelming, with Santa Clara County (SCC) alone having over 24 million property deed documents, making purely manual review infeasible. We present a novel approach to addressing this pressing issue, developed through a partnership with the SCC Clerk-Recorder's Office. First, we leverage an open large language model, finetuned to detect racial covenants with high precision and recall. We estimate that this system reduces manual efforts by 86,500 person hours and costs less than 2% of the cost for a comparable off-the-shelf closed model. Second, we illustrate the County's integration of this model into responsible operational practice, including legal review and the creation of a historical registry, and release our model to assist the hundreds of jurisdictions engaged in similar efforts. Finally, our results reveal distinct periods of utilization of racial covenants, sharp geographic clustering, and the disproportionate role of a small number of developers in maintaining housing discrimination. We estimate that by 1950, one in four properties across the County were subject to racial covenants.