A Greek Government Decisions Dataset for Public-Sector Analysis and Insight

📄 arXiv: 2512.05647v2 📥 PDF

作者: Giorgos Antoniou, Giorgos Filandrianos, Aggelos Vlachos, Giorgos Stamou, Lampros Kollimenos, Konstantinos Skianis, Michalis Vazirgiannis

分类: cs.CL

发布日期: 2025-12-05 (更新: 2025-12-11)


💡 一句话要点

构建希腊政府决策数据集,并探索其在公共部门信息检索与推理中的应用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 政府决策 数据集 信息检索 检索增强生成 公共部门 自然语言处理 法律AI

📋 核心要点

  1. 现有方法难以有效利用大规模公共部门数据,阻碍了政府决策的透明度和可访问性。
  2. 论文构建了一个大规模希腊政府决策数据集,并设计了检索增强生成(RAG)任务,以促进信息检索和推理。
  3. 实验表明,该数据集能够支持高级信息访问,并为法律和政府领域的语言模型提供高质量的预训练/微调数据。

📝 摘要(中文)

本文介绍了一个开放的、机器可读的希腊政府决策语料库,数据来源于国家透明平台Diavgeia。该资源包含100万条决策,具有从PDF中提取的高质量原始文本,并以Markdown格式发布原始提取文本,以及完全可复现的提取流程。除了核心数据集,我们还进行了定性分析,探索了样板模式,并通过构建一组代表性问题,创建高质量答案,并评估基线RAG系统在检索和推理公共决策方面的能力,设计了一个检索增强生成(RAG)任务。该评估证明了大规模公共部门语料库通过结构化检索和政府文件推理来支持高级信息访问和透明度的潜力,并强调了这种RAG管道如何模拟一个基于聊天的助手,能够交互式地回答有关公共决策的问题。由于其规模、质量和领域覆盖范围,该语料库还可以作为新的语言模型(LM)和大型语言模型(LLM)的高价值预训练或微调材料,包括法律和政府领域的专用模型,并作为领域自适应、知识驱动生成和可解释AI的新方法的基础。最后,我们讨论了局限性,概述了未来的方向,并提供了数据和代码。

🔬 方法详解

问题定义:现有方法难以有效利用大规模公共部门数据,导致政府决策信息检索效率低下,缺乏有效的推理能力。现有方法难以处理PDF文档中提取的非结构化文本,并且缺乏针对特定领域(如法律和政府)的优化。

核心思路:论文的核心思路是构建一个大规模、高质量的希腊政府决策数据集,并利用检索增强生成(RAG)技术,实现对政府决策的有效检索和推理。通过RAG,模型可以首先检索相关文档,然后基于检索到的信息生成答案,从而提高准确性和可解释性。

技术框架:整体框架包括数据提取、数据清洗、RAG任务构建和模型评估四个主要阶段。数据提取阶段从Diavgeia平台获取原始PDF文档,并提取文本信息。数据清洗阶段处理提取的文本,去除噪声和冗余信息。RAG任务构建阶段包括问题生成、答案创建和基线系统构建。模型评估阶段评估RAG系统在检索和推理公共决策方面的性能。

关键创新:论文的关键创新在于构建了一个大规模、高质量的希腊政府决策数据集,并将其应用于RAG任务。该数据集的规模和质量使其能够支持高级信息访问,并为法律和政府领域的语言模型提供高质量的预训练/微调数据。此外,论文还设计了一个评估RAG系统在公共部门决策检索和推理方面的基准。

关键设计:论文的关键设计包括:1) 使用Markdown格式存储原始提取文本,方便后续处理;2) 设计了一套可复现的数据提取流程,保证数据的可靠性;3) 构建了一组代表性问题,用于评估RAG系统的性能;4) 创建了高质量的答案,作为RAG系统的训练数据。

🖼️ 关键图片

img_0

📊 实验亮点

论文通过实验验证了构建的希腊政府决策数据集在RAG任务中的有效性。基线RAG系统在检索和推理公共决策方面表现出潜力,证明了大规模公共部门语料库能够支持高级信息访问和透明度。该数据集为法律和政府领域的语言模型提供了高质量的预训练/微调材料。

🎯 应用场景

该研究成果可应用于提升政府决策的透明度和可访问性,构建智能政务助手,辅助法律研究和政策制定。该数据集可作为法律和政府领域语言模型的预训练或微调数据,促进相关领域AI技术的发展。未来可扩展到其他国家或地区的政府决策数据,构建全球性的公共部门知识库。

📄 摘要(原文)

We introduce an open, machine-readable corpus of Greek government decisions sourced from the national transparency platform Diavgeia. The resource comprises 1 million decisions, featuring and high-quality raw text extracted from PDFs. It is released with raw extracted text in Markdown format, alongside a fully reproducible extraction pipeline. Beyond the core dataset, we conduct qualitative analyses to explore boilerplate patterns and design a retrieval-augmented generation (RAG) task by formulating a set of representative questions, creating high-quality answers, and evaluating a baseline RAG system on its ability to retrieve and reason over public decisions. This evaluation demonstrates the potential of large-scale public-sector corpora to support advanced information access and transparency through structured retrieval and reasoning over governmental documents, and highlights how such a RAG pipeline could simulate a chat-based assistant capable of interactively answering questions about public decisions. Due to its scale, quality, and domain coverage, the corpus can also serve as high-value pre-training or fine-tuning material for new Language Models (LMs) and Large Language Models (LLMs) respectively, including specialized models for legal and governmental domains, and as a foundation for novel approaches in domain adaptation, knowledge-grounded generation, and explainable AI. Finally, we discuss limitations, outline future directions, and make both the data and the code accessible.