TAGIFY: LLM-powered Tagging Interface for Improved Data Findability on OGD portals

作者: Kevin Kliimask, Anastasija Nikiforova

分类: cs.CY, cs.AI, cs.ET, cs.HC

发布日期: 2024-07-26 (更新: 2024-08-21)

💡 一句话要点

提出Tagify：利用LLM改进OGD门户数据发现的标签生成界面

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放政府数据 数据标签 大型语言模型 数据发现 元数据管理

📋 核心要点

开放政府数据门户网站面临数据量激增带来的信息过载问题，数据集缺乏完整准确的标签严重影响了数据查找和访问效率。
Tagify利用大型语言模型（LLM）如GPT-3.5-turbo和GPT-4，自动生成英语和爱沙尼亚语的数据集标签，辅助数据发布者完善元数据。
用户评估结果为Tagify原型提供了改进方向，旨在提升开放政府数据门户网站的数据可查找性和可访问性。

📝 摘要（中文）

自2000年代中期以来，促进开放政府数据（OGD）的工作在各级政府中获得了显著关注。随着越来越多的数据集发布在OGD门户网站上，查找特定数据变得更加困难，导致信息过载。完整和准确的数据集文档，包括将适当的标签与数据集相关联，是提高数据集可查找性和可访问性的关键。对爱沙尼亚开放数据门户网站进行的分析显示，11%的数据集没有相关标签，而26%的数据集只有一个标签，这突显了门户网站内数据查找和访问方面的挑战，而根据最新的开放数据成熟度报告，该门户网站被认为是潮流引领者。本研究的目的是提出一种自动标记数据集的解决方案，以提高OGD门户网站上的数据可查找性。本文介绍Tagify——一个标签生成界面的原型，它使用大型语言模型（LLM），如GPT-3.5-turbo和GPT-4来自动标记数据集，生成英语和爱沙尼亚语的数据集标签，从而增强数据发布者准备元数据的能力，并提高数据用户在OGD门户网站上查找数据的能力。开发出的解决方案已由用户评估，并收集了他们的反馈，以确定未来原型改进的议程。

🔬 方法详解

问题定义：论文旨在解决开放政府数据（OGD）门户网站上数据集标签缺失或不完整导致的数据查找困难问题。现有方法依赖人工标注，效率低且容易出错，无法满足日益增长的数据量需求。缺乏有效的标签使得用户难以快速定位所需的数据集，阻碍了OGD的推广和应用。

核心思路：论文的核心思路是利用大型语言模型（LLM）强大的文本理解和生成能力，自动为数据集生成标签。通过分析数据集的描述、内容等信息，LLM能够理解数据集的主题和关键信息，并生成相关的标签。这种方法可以显著提高标签生成的效率和准确性，从而改善数据查找体验。

技术框架：Tagify是一个标签生成界面的原型系统，其主要流程如下：1) 用户输入或选择数据集；2) 系统将数据集的描述信息输入到LLM中（例如GPT-3.5-turbo或GPT-4）；3) LLM分析数据集信息，生成候选标签列表；4) 系统将候选标签呈现给用户，用户可以进行编辑、添加或删除操作；5) 用户确认标签后，系统将标签与数据集关联。

关键创新：该论文的关键创新在于将大型语言模型应用于开放政府数据的标签生成任务。与传统的人工标注或基于规则的自动标注方法相比，LLM能够更准确地理解数据集的语义信息，并生成更具相关性和多样性的标签。此外，Tagify系统提供了一个用户友好的界面，允许用户对LLM生成的标签进行编辑和调整，从而保证了标签的质量和准确性。

关键设计：Tagify系统使用了GPT-3.5-turbo和GPT-4等大型语言模型。具体prompt的设计未知，但推测会包含数据集的描述信息以及要求LLM生成相关标签的指令。用户界面允许用户查看、编辑和确认LLM生成的标签。未来的改进方向可能包括优化prompt设计、引入标签排序算法、以及支持更多语言的数据集标签生成。

📊 实验亮点

该研究通过用户评估验证了Tagify系统的有效性，用户反馈表明LLM生成的标签能够较好地反映数据集的主题和内容。虽然论文中没有提供具体的性能指标，但用户对系统的整体满意度较高，并提出了改进建议，为未来的研究方向提供了参考。

🎯 应用场景

该研究成果可广泛应用于各类开放数据平台、知识库和数字图书馆等领域，提升数据资源的组织和检索效率。通过自动化标签生成，可以降低数据管理的成本，提高数据利用率，促进数据驱动的决策和创新。未来，该技术有望扩展到其他类型的数据资源，例如图像、视频和音频等。

📄 摘要（原文）

Efforts directed towards promoting Open Government Data (OGD) have gained significant traction across various governmental tiers since the mid-2000s. As more datasets are published on OGD portals, finding specific data becomes harder, leading to information overload. Complete and accurate documentation of datasets, including association of proper tags with datasets is key to improving dataset findability and accessibility. Analysis conducted on the Estonian Open Data Portal, revealed that 11% datasets have no associated tags, while 26% had only one tag assigned to them, which underscores challenges in data findability and accessibility within the portal, which, according to the recent Open Data Maturity Report, is considered trend-setter. The aim of this study is to propose an automated solution to tagging datasets to improve data findability on OGD portals. This paper presents Tagify - a prototype of tagging interface that employs large language models (LLM) such as GPT-3.5-turbo and GPT-4 to automate dataset tagging, generating tags for datasets in English and Estonian, thereby augmenting metadata preparation by data publishers and improving data findability on OGD portals by data users. The developed solution was evaluated by users and their feedback was collected to define an agenda for future prototype improvements.

TAGIFY: LLM-powered Tagging Interface for Improved Data Findability on OGD portals

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理