AGGA: A Dataset of Academic Guidelines for Generative AI and Large Language Models

📄 arXiv: 2501.02063v3 📥 PDF

作者: Junfeng Jiao, Saleh Afroogh, Kevin Chen, David Atkinson, Amit Dhurandhar

分类: cs.CL, cs.CY

发布日期: 2025-01-03 (更新: 2025-03-18)

备注: arXiv admin note: text overlap with arXiv:2406.18842, arXiv:2501.00959


💡 一句话要点

AGGA:一个用于生成式AI和大型语言模型学术指南的数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式AI 大型语言模型 学术指南 数据集 自然语言处理

📋 核心要点

  1. 现有研究缺乏系统性的学术界AI使用指南数据集,阻碍了相关NLP技术在需求工程中的应用。
  2. 论文构建了AGGA数据集,包含来自全球顶尖大学的80条学术指南,覆盖不同领域和机构。
  3. AGGA数据集可用于模型综合、歧义检测等多种NLP任务,为学术界AI使用规范研究提供基准。

📝 摘要(中文)

本研究介绍了AGGA,一个包含80条关于在学术环境中使用生成式人工智能(GAI)和大型语言模型(LLM)的学术指南的数据集,这些指南均来自官方大学网站。该数据集包含188,674个单词,可作为自然语言处理任务的宝贵资源,这些任务通常应用于需求工程,例如模型综合、抽象识别和文档结构评估。此外,AGGA可以进一步注释,作为各种任务的基准,包括歧义检测、需求分类和等效需求识别。我们采用严谨的方法,选取了代表全球不同机构的大学,包括六大洲的顶尖大学。该数据集涵盖了人文、技术以及公共和私立机构等各种学术领域的观点,为GAI和LLM在学术界的整合提供了广泛的见解。

🔬 方法详解

问题定义:当前缺乏一个专门针对学术界生成式AI和大型语言模型使用指南的数据集。这使得研究人员难以系统地分析和理解不同机构对于AI使用的规范和要求,阻碍了相关自然语言处理技术在需求工程中的应用,例如自动提取、分类和验证学术指南。

核心思路:论文的核心思路是系统性地收集和整理来自全球不同大学的官方网站上的学术指南,构建一个高质量、多样化的数据集。通过覆盖不同地区、不同类型的大学以及不同学科领域,力求全面反映学术界对于生成式AI和大型语言模型使用的规范。

技术框架:该研究主要关注数据集的构建,而非提出新的算法或模型。其流程包括: 1. 大学选择:选取代表全球六大洲的顶尖大学,确保地域多样性。 2. 指南收集:从选定大学的官方网站上收集关于生成式AI和大型语言模型使用的学术指南。 3. 数据清洗:对收集到的文本数据进行清洗和预处理,去除噪声和冗余信息。 4. 数据集构建:将清洗后的数据整理成AGGA数据集,并提供相关元数据信息。

关键创新:该研究的关键创新在于构建了一个专门针对学术界生成式AI和大型语言模型使用指南的数据集。这是首个此类数据集,为相关研究提供了宝贵的资源。数据集的多样性和高质量使其能够支持各种自然语言处理任务。

关键设计:论文侧重于数据集的构建方法,没有涉及具体的模型或算法设计。关键设计在于大学的选择策略,力求覆盖全球不同地区和类型的大学,以及指南的收集和清洗过程,确保数据的质量和可用性。没有提及具体的参数设置、损失函数或网络结构。

📊 实验亮点

AGGA数据集包含来自全球六大洲顶尖大学的80条学术指南,共计188,674个单词。该数据集覆盖了人文、技术等多个学科领域,以及公立和私立机构。通过严谨的方法学,确保了数据集的多样性和高质量,为相关研究提供了可靠的基准。

🎯 应用场景

AGGA数据集可广泛应用于自然语言处理、需求工程和教育领域。它可以作为训练和评估NLP模型的基准,用于自动提取、分类和验证学术指南。此外,该数据集还可以帮助教育机构制定更完善的AI使用规范,促进AI技术在学术界的合理应用。未来,可以基于AGGA数据集开发智能工具,辅助学生和研究人员更好地理解和遵守学术规范。

📄 摘要(原文)

This study introduces AGGA, a dataset comprising 80 academic guidelines for the use of Generative AIs (GAIs) and Large Language Models (LLMs) in academic settings, meticulously collected from official university websites. The dataset contains 188,674 words and serves as a valuable resource for natural language processing tasks commonly applied in requirements engineering, such as model synthesis, abstraction identification, and document structure assessment. Additionally, AGGA can be further annotated to function as a benchmark for various tasks, including ambiguity detection, requirements categorization, and the identification of equivalent requirements. Our methodologically rigorous approach ensured a thorough examination, with a selection of universities that represent a diverse range of global institutions, including top-ranked universities across six continents. The dataset captures perspectives from a variety of academic fields, including humanities, technology, and both public and private institutions, offering a broad spectrum of insights into the integration of GAIs and LLMs in academia.