Durghotona GPT: A Web Scraping and Large Language Model Based Framework to Generate Road Accident Dataset Automatically in Bangladesh
作者: MD Thamed Bin Zaman Chowdhury, Moazzem Hossain, Md. Ridwanul Islam
分类: cs.CL
发布日期: 2025-04-23
备注: It has been accepted in IEEE 27th International Conference on Computer and Information Technology (ICCIT). Now, we are waiting for it to get published in IEEE Xplore
DOI: 10.1109/ICCIT64611.2024.11021969
💡 一句话要点
Durghotona GPT:基于网络爬取和LLM的孟加拉国道路交通事故数据集自动生成框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 道路交通事故 数据集生成 网络爬虫 大型语言模型 信息提取 交通安全 城市规划
📋 核心要点
- 现有道路交通事故数据收集依赖人工,存在延迟、错误和沟通不畅等问题,难以满足及时分析和预测的需求。
- Durghotona GPT框架通过网络爬取和LLM结合,自动从新闻报道中提取、分类和编译事故数据,提高数据质量和效率。
- 实验结果表明,开源模型Llama-3在事故数据提取方面表现出色,准确率达到89%,可作为GPT-4的经济替代方案。
📝 摘要(中文)
道路交通事故是全球性的重大问题,会导致巨大的经济损失、伤亡和社会挑战。准确及时的事故数据对于预测和缓解这些事件至关重要。本文提出了一个名为“Durghotona GPT”的新框架,该框架集成了网络爬取和大型语言模型(LLM),以自动从孟加拉国主要国家日报生成全面的事故数据集。作者从三家主要报纸:Prothom Alo、Dhaka Tribune和The Daily Star收集了事故报告。然后使用最新的LLM:GPT-4、GPT-3.5和Llama-3处理收集到的新闻。该框架有效地提取相关信息,对报告进行分类,并编译详细的数据集。因此,该框架克服了手动数据收集方法的局限性,例如延迟、错误和沟通不畅。作者的评估表明,开源模型Llama-3的性能与GPT-4相当,在作者的评估中达到了89%的准确率。因此,它可以被认为是类似任务的经济高效的替代方案。结果表明,作者开发的框架可以极大地提高事故数据的质量和可用性,从而支持交通安全分析、城市规划和公共卫生等关键应用。作为本文的一部分,作者还开发了“Durghotona GPT”的易于使用的界面。未来的工作将侧重于扩展数据收集方法和改进LLM,以进一步提高数据集的准确性和适用性。
🔬 方法详解
问题定义:论文旨在解决孟加拉国道路交通事故数据收集效率低、质量差的问题。现有方法依赖人工收集和整理,存在数据延迟、错误率高、覆盖范围有限等痛点,难以满足交通安全分析、城市规划和公共卫生等领域的需求。
核心思路:论文的核心思路是利用网络爬虫技术自动从新闻网站抓取事故报道,并结合大型语言模型(LLM)自动提取、分类和整理事故信息,从而构建高质量的道路交通事故数据集。这种方法可以显著提高数据收集的效率和准确性,并降低人工成本。
技术框架:Durghotona GPT框架主要包含以下几个模块:1) 网络爬虫模块:负责从指定的孟加拉国新闻网站(如Prothom Alo、Dhaka Tribune和The Daily Star)抓取包含事故报道的网页。2) 文本预处理模块:对抓取的网页文本进行清洗和格式化,去除HTML标签、噪声数据等。3) LLM信息提取模块:使用大型语言模型(如GPT-4、GPT-3.5和Llama-3)从预处理后的文本中提取关键信息,例如事故发生时间、地点、伤亡人数、事故类型等。4) 数据分类与整理模块:根据提取的信息对事故数据进行分类,并将其整理成结构化的数据集。5) 用户界面模块:提供用户友好的界面,方便用户查询和使用数据集。
关键创新:该论文的关键创新在于将网络爬虫技术和大型语言模型相结合,实现了道路交通事故数据集的自动生成。与传统的人工收集方法相比,该方法具有更高的效率、准确性和可扩展性。此外,论文还评估了不同LLM在事故信息提取方面的性能,并发现开源模型Llama-3的表现与GPT-4相当,为类似任务提供了一种经济高效的替代方案。
关键设计:论文中没有详细描述LLM的具体参数设置、损失函数或网络结构。但是,论文强调了LLM在信息提取过程中的重要性,并对不同LLM的性能进行了比较。此外,论文还提到了用户界面的设计,旨在方便用户查询和使用数据集。
📊 实验亮点
实验结果表明,Durghotona GPT框架能够有效地从新闻报道中提取道路交通事故信息。开源模型Llama-3在事故信息提取方面的准确率达到89%,与GPT-4的性能相当,但成本更低。这表明,该框架可以为道路交通事故数据收集提供一种经济高效的解决方案。
🎯 应用场景
该研究成果可广泛应用于交通安全分析、城市规划和公共卫生等领域。例如,政府部门可以利用该数据集进行交通事故风险评估,制定更有针对性的交通安全政策;城市规划者可以利用该数据集优化道路设计,减少交通事故的发生;公共卫生机构可以利用该数据集评估交通事故对公众健康的影响,并制定相应的干预措施。此外,该框架还可以扩展到其他类型的数据集生成,例如自然灾害数据、犯罪数据等。
📄 摘要(原文)
Road accidents pose significant concerns globally. They lead to large financial losses, injuries, disabilities, and societal challenges. Accurate and timely accident data is essential for predicting and mitigating these events. This paper presents a novel framework named 'Durghotona GPT' that integrates web scraping and Large Language Models (LLMs) to automate the generation of comprehensive accident datasets from prominent national dailies in Bangladesh. The authors collected accident reports from three major newspapers: Prothom Alo, Dhaka Tribune, and The Daily Star. The collected news was then processed using the newest available LLMs: GPT-4, GPT-3.5, and Llama-3. The framework efficiently extracts relevant information, categorizes reports, and compiles detailed datasets. Thus, this framework overcomes limitations of manual data collection methods such as delays, errors, and communication gaps. The authors' evaluation demonstrates that Llama-3, an open-source model, performs comparably to GPT-4. It achieved 89% accuracy in the authors' evaluation. Therefore, it can be considered a cost-effective alternative for similar tasks. The results suggest that the framework developed by the authors can drastically enhance the quality and availability of accident data. As a result, it can support critical applications in traffic safety analysis, urban planning, and public health. The authors also developed an interface for 'Durghotona GPT' for ease of use as part of this paper. Future work will focus on expanding data collection methods and refining LLMs to further increase dataset accuracy and applicability.