PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models

📄 arXiv: 2604.12995v1 📥 PDF

作者: Han Bao, Penghao Zhang, Yue Huang, Zhengqing Yuan, Yanchi Ru, Rui Su, Yujun Zhou, Xiangqi Wang, Kehan Guo, Nitesh V Chawla, Yanfang Ye, Xiangliang Zhang

分类: cs.CL, cs.CY

发布日期: 2026-04-14

备注: Accepted by ACL 2026 findings


💡 一句话要点

提出PolicyBench和PolicyMoE,提升大语言模型在公共政策理解与应用能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 公共政策理解 大语言模型 混合专家模型 基准测试 PolicyBench PolicyMoE 认知能力 智能政务

📋 核心要点

  1. 现有大语言模型在公共政策领域的理解和推理能力不足,缺乏针对性的评估和优化。
  2. 构建PolicyBench基准测试,全面评估LLM在政策理解方面的记忆、理解和应用能力,并提出PolicyMoE模型。
  3. 实验表明,PolicyMoE在应用型政策任务和结构化推理任务上表现优异,但仍存在提升空间。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被整合到现实世界的决策中,包括公共政策领域。然而,它们理解和推理政策相关内容的能力仍未得到充分探索。为了填补这一空白,我们提出了 extbf{ extit{PolicyBench}},这是第一个大规模跨系统(美国-中国)的基准测试,用于评估政策理解能力,包含21K个案例,涵盖广泛的政策领域,捕捉现实世界治理的多样性和复杂性。遵循Bloom的分类法,该基准评估三个核心能力:(1) extbf{记忆}: 政策知识的事实回忆,(2) extbf{理解}: 概念和上下文推理,以及(3) extbf{应用}: 解决现实生活中的政策场景问题。在此基准的基础上,我们进一步提出了 extbf{ extit{PolicyMoE}},这是一个领域专业化的混合专家(MoE)模型,其专家模块与每个认知水平对齐。所提出的模型在面向应用的政策任务上表现出比记忆或概念理解更强的性能,并在结构化推理任务上产生最高的准确性。我们的结果揭示了当前LLM在政策理解方面的关键局限性,并提出了通往更可靠、以政策为中心的模型的路径。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在公共政策领域的理解和应用能力不足的问题。现有LLMs在处理政策相关内容时,缺乏针对性的训练和评估,导致在记忆、理解和应用三个层面都存在不足。尤其是在需要结合上下文进行推理和解决实际政策问题的场景下,性能表现不佳。

核心思路:论文的核心思路是构建一个专门针对公共政策领域的基准测试数据集PolicyBench,并在此基础上训练一个领域专业化的混合专家模型PolicyMoE。PolicyBench用于全面评估LLMs在政策理解方面的能力,PolicyMoE则通过专家模块的设置,分别针对记忆、理解和应用三个认知层面进行优化。

技术框架:整体框架包含两个主要部分:PolicyBench基准测试和PolicyMoE模型。PolicyBench是一个大规模的跨系统(美国-中国)数据集,包含21K个案例,涵盖广泛的政策领域。PolicyMoE是一个混合专家模型,包含多个专家模块,每个模块针对不同的认知层面(记忆、理解、应用)进行训练。在推理阶段,根据输入问题的类型,选择相应的专家模块进行处理。

关键创新:论文的关键创新在于构建了PolicyBench基准测试,为评估LLMs在公共政策领域的理解能力提供了一个标准化的平台。此外,PolicyMoE模型通过混合专家的方式,针对不同的认知层面进行优化,提高了模型在应用型政策任务上的性能。

关键设计:PolicyBench数据集的设计遵循Bloom的分类法,将政策理解能力分为记忆、理解和应用三个层面,并针对每个层面设计了相应的测试用例。PolicyMoE模型中,每个专家模块采用不同的网络结构和训练策略,以适应不同认知层面的特点。具体的技术细节(如参数设置、损失函数、网络结构)在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PolicyMoE模型在PolicyBench基准测试中表现出优异的性能,尤其是在应用型政策任务和结构化推理任务上。实验结果表明,PolicyMoE在这些任务上的准确率显著高于其他基线模型。具体的性能数据和提升幅度在论文中未详细给出,属于未知信息。

🎯 应用场景

该研究成果可应用于提升大语言模型在公共政策领域的辅助决策能力,例如辅助政策制定者进行政策分析、风险评估和效果预测。此外,还可以应用于智能政务、舆情分析等领域,提高政府部门的工作效率和服务水平。未来,有望构建更加智能化的政策咨询系统。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly integrated into real-world decision-making, including in the domain of public policy. Yet, their ability to comprehend and reason about policy-related content remains underexplored. To fill this gap, we present \textbf{\textit{PolicyBench}}, the first large-scale cross-system benchmark (US-China) evaluating policy comprehension, comprising 21K cases across a broad spectrum of policy areas, capturing the diversity and complexity of real-world governance. Following Bloom's taxonomy, the benchmark assesses three core capabilities: (1) \textbf{Memorization}: factual recall of policy knowledge, (2) \textbf{Understanding}: conceptual and contextual reasoning, and (3) \textbf{Application}: problem-solving in real-life policy scenarios. Building on this benchmark, we further propose \textbf{\textit{PolicyMoE}}, a domain-specialized Mixture-of-Experts (MoE) model with expert modules aligned to each cognitive level. The proposed models demonstrate stronger performance on application-oriented policy tasks than on memorization or conceptual understanding, and yields the highest accuracy on structured reasoning tasks. Our results reveal key limitations of current LLMs in policy understanding and suggest paths toward more reliable, policy-focused models.