What Would an LLM Do? Evaluating Policymaking Capabilities of Large Language Models

作者: Pierre Le Coz, Jia An Liu, Debarun Bhattacharjya, Georgina Curto, Serge Stinckwich

分类: cs.AI

发布日期: 2025-09-04

💡 一句话要点

评估大型语言模型在社会政策制定中的能力，以解决无家可归问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会政策制定 无家可归问题 能力方法 代理模型

📋 核心要点

现有社会政策制定方法难以有效处理海量非结构化数据和复杂多变的社会环境。
利用大型语言模型处理非结构化数据和模拟社会场景的能力，为社会政策制定提供新的视角。
通过构建基准测试和自动化流程，评估LLM在解决无家可归问题上的政策建议和社会影响。

📝 摘要（中文）

大型语言模型（LLM）正日益应用于高风险领域。它们处理海量非结构化数据、探索灵活场景以及处理各种上下文因素的能力，使其特别适合为复杂的社会政策制定提供新的见解。本文评估了LLM是否与领域专家（以及彼此之间）保持一致，从而为解决无家可归问题这一社会政策提供信息——这是一个影响全球超过1.5亿人的挑战。我们开发了一个新颖的基准，其中包含跨四个地区（美国南本德、西班牙巴塞罗那、南非约翰内斯堡、中国澳门）的决策场景和政策选择。范围内的政策基于人类发展能力方法论的框架。我们还提出了一个自动化的流程，将基准测试的政策连接到基于代理的模型，并通过模拟的社会场景探索推荐政策的社会影响。结果表明，利用LLM进行社会政策制定具有潜力。如果在与当地领域专家合作下引入负责任的保障措施和情境校准，LLM可以大规模地为人类提供有价值的见解，以替代政策的形式。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）在社会政策制定方面的能力，特别是针对无家可归问题。现有方法在处理复杂社会问题时，难以有效整合大量非结构化数据，并且缺乏对政策选择的全面评估和模拟能力。这导致政策制定过程效率低下，且难以预测政策的潜在社会影响。

核心思路：论文的核心思路是利用LLM处理自然语言和生成文本的能力，将其应用于社会政策制定领域。通过构建包含不同地理区域和政策选择的基准测试，评估LLM在政策建议方面的表现，并将其与领域专家的意见进行对比。此外，论文还提出了一种自动化流程，将LLM的政策建议与基于代理的模型相结合，以模拟政策的社会影响。

技术框架：论文的技术框架主要包括三个部分：1) 构建包含决策场景和政策选择的基准测试，涵盖四个地理区域；2) 使用LLM对基准测试中的场景进行分析，并生成相应的政策建议；3) 将LLM的政策建议输入到基于代理的模型中，模拟政策的社会影响。该框架旨在评估LLM在社会政策制定方面的能力，并探索其在实际应用中的潜力。

关键创新：论文的关键创新在于：1) 提出了一个新颖的基准测试，用于评估LLM在社会政策制定方面的能力；2) 开发了一个自动化的流程，将LLM的政策建议与基于代理的模型相结合，以模拟政策的社会影响；3) 将LLM应用于社会政策制定领域，探索其在解决复杂社会问题方面的潜力。

关键设计：论文的关键设计包括：1) 基准测试的设计，涵盖了不同地理区域和政策选择，以评估LLM的泛化能力；2) 基于代理的模型的选择，能够模拟政策的社会影响，并提供对政策效果的量化评估；3) LLM的选择和配置，需要根据具体的应用场景进行调整，以获得最佳的性能。

📊 实验亮点

论文通过实验证明了LLM在社会政策制定方面具有潜力。实验结果表明，LLM的政策建议与领域专家的意见具有一定的相关性，并且能够通过基于代理的模型模拟政策的社会影响。这表明LLM可以作为一种辅助工具，为政策制定者提供有价值的见解和替代方案。但同时也强调，需要负责任的保障措施和情境校准，并与当地领域专家合作，才能充分发挥LLM的潜力。

🎯 应用场景

该研究成果可应用于社会政策制定、城市规划、公共卫生等领域。通过利用LLM的分析和预测能力，可以为政策制定者提供更全面的信息和更有效的解决方案，从而提高政策的科学性和有效性，并最终改善社会福祉。未来，该研究可以扩展到其他社会问题，并与其他技术相结合，以实现更智能化的社会治理。

📄 摘要（原文）

Large language models (LLMs) are increasingly being adopted in high-stakes domains. Their capacity to process vast amounts of unstructured data, explore flexible scenarios, and handle a diversity of contextual factors can make them uniquely suited to provide new insights for the complexity of social policymaking. This article evaluates whether LLMs' are aligned with domain experts (and among themselves) to inform social policymaking on the subject of homelessness alleviation - a challenge affecting over 150 million people worldwide. We develop a novel benchmark comprised of decision scenarios with policy choices across four geographies (South Bend, USA; Barcelona, Spain; Johannesburg, South Africa; Macau SAR, China). The policies in scope are grounded in the conceptual framework of the Capability Approach for human development. We also present an automated pipeline that connects the benchmarked policies to an agent-based model, and we explore the social impact of the recommended policies through simulated social scenarios. The paper results reveal promising potential to leverage LLMs for social policy making. If responsible guardrails and contextual calibrations are introduced in collaboration with local domain experts, LLMs can provide humans with valuable insights, in the form of alternative policies at scale.

What Would an LLM Do? Evaluating Policymaking Capabilities of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册