Design and Application of Multimodal Large Language Model Based System for End to End Automation of Accident Dataset Generation

📄 arXiv: 2505.00015v2 📥 PDF

作者: MD Thamed Bin Zaman Chowdhury, Moazzem Hossain

分类: cs.CL

发布日期: 2025-04-23 (更新: 2025-10-02)

备注: This paper is accepted for presentation in TRB annual meeting 2026. The version presented here is the preprint version before peer review process


💡 一句话要点

提出基于多模态大语言模型的端到端系统,实现交通事故数据集的自动化生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交通事故数据 自动化数据收集 大型语言模型 网络爬取 信息提取

📋 核心要点

  1. 现有交通事故数据收集依赖人工,存在数据分散、可靠性低等问题,导致数据不足和记录不一致。
  2. 提出一种基于多模态大语言模型的自动化系统,通过网络爬取、信息提取和去重等步骤,实现端到端的数据集生成。
  3. 实验结果表明,该系统能够有效地从新闻网站提取交通事故信息,代码生成模块校准准确率达91.3%,验证准确率达80%。

📝 摘要(中文)

本研究针对孟加拉国等发展中国家道路交通事故数据收集主要依靠人工、数据分散、可靠性低等问题,提出了一个完全自动化的系统,该系统利用大型语言模型(LLM)和网络爬取技术来解决这些挑战。该流程包括四个组成部分:自动网络爬取代码生成、从在线来源收集新闻、使用结构化数据提取进行交通事故新闻分类以及重复数据删除。该系统使用多模态生成式LLM Gemini-2.0-Flash 实现无缝自动化。代码生成模块将网页分为分页、动态或无限滚动类别,并生成合适的Python脚本进行爬取。LLM还对日期、时间、地点、死亡人数、受伤人数、道路类型、车辆类型和行人参与等关键事故信息进行分类和提取。重复数据删除算法通过删除重复报告来确保数据完整性。该系统在111天内(2024年10月1日至2025年1月20日)爬取了14个主要的孟加拉国新闻网站,处理了超过15,000篇新闻文章,并识别出705起独特的事故。代码生成模块实现了91.3%的校准准确率和80%的验证准确率。吉大港报告的事故数量(80起)、死亡人数(70人)和受伤人数(115人)最高,其次是达卡、法里德布尔、加济布尔和科克斯巴扎尔。事故高峰时间为上午(8-9点)、中午(12-1点)和晚上(6-7点)。还开发了一个包含使用说明的公共存储库。这项研究证明了基于LLM的可扩展系统在准确、低成本的事故数据收集方面的可行性,为孟加拉国数据驱动的道路安全政策制定奠定了基础。

🔬 方法详解

问题定义:论文旨在解决发展中国家交通事故数据收集的难题,现有方法主要依赖人工,效率低下且容易出错,导致数据不完整、不准确,难以支持有效的道路安全政策制定。现有方法的痛点在于数据获取的自动化程度低,数据质量难以保证。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的自然语言处理能力和代码生成能力,构建一个端到端的自动化系统,实现从网页爬取、信息提取到数据清洗的全流程自动化。通过LLM自动生成爬虫代码,并从新闻报道中提取结构化事故信息,从而降低人工成本,提高数据质量和效率。

技术框架:该系统包含四个主要模块:1) 自动网络爬取代码生成模块:根据网页类型(分页、动态、无限滚动)自动生成Python爬虫脚本;2) 新闻收集模块:从多个在线新闻来源收集新闻文章;3) 事故新闻分类与结构化数据提取模块:利用LLM对新闻进行分类,并提取关键事故信息(日期、时间、地点、伤亡人数等);4) 重复数据删除模块:通过算法去除重复的事故报告,确保数据唯一性。

关键创新:该论文的关键创新在于将多模态大语言模型应用于交通事故数据收集的自动化流程中,特别是利用LLM自动生成爬虫代码,并进行信息提取。与传统的手动编写爬虫和人工提取信息相比,该方法大大提高了效率和可扩展性。此外,使用LLM进行信息提取也能够更好地处理自然语言文本中的复杂语义关系。

关键设计:该系统使用Gemini-2.0-Flash作为核心LLM,用于代码生成和信息提取。代码生成模块根据网页类型选择合适的爬取策略,并生成相应的Python代码。信息提取模块利用LLM的zero-shot或few-shot学习能力,从新闻文本中提取关键信息。重复数据删除模块采用基于文本相似度的算法,识别并去除重复的事故报告。具体的参数设置和损失函数等技术细节在论文中未详细描述,属于未知信息。

📊 实验亮点

该系统在111天内从14个孟加拉国新闻网站爬取了超过15,000篇新闻文章,识别出705起独特的事故。代码生成模块实现了91.3%的校准准确率和80%的验证准确率。研究结果表明,吉大港的事故数量、死亡人数和受伤人数最高,事故高峰时间为上午、中午和晚上。

🎯 应用场景

该研究成果可应用于道路安全管理、交通规划、保险理赔等领域。通过自动生成高质量的交通事故数据集,可以为数据驱动的道路安全政策制定提供支持,例如识别事故高发地点和时段,评估交通安全措施的效果,以及优化交通资源分配。该系统还可推广到其他领域的数据收集和信息提取任务中。

📄 摘要(原文)

Road traffic accidents remain a major public safety and socio-economic issue in developing countries like Bangladesh. Existing accident data collection is largely manual, fragmented, and unreliable, resulting in underreporting and inconsistent records. This research proposes a fully automated system using Large Language Models (LLMs) and web scraping techniques to address these challenges. The pipeline consists of four components: automated web scraping code generation, news collection from online sources, accident news classification with structured data extraction, and duplicate removal. The system uses the multimodal generative LLM Gemini-2.0-Flash for seamless automation. The code generation module classifies webpages into pagination, dynamic, or infinite scrolling categories and generates suitable Python scripts for scraping. LLMs also classify and extract key accident information such as date, time, location, fatalities, injuries, road type, vehicle types, and pedestrian involvement. A deduplication algorithm ensures data integrity by removing duplicate reports. The system scraped 14 major Bangladeshi news sites over 111 days (Oct 1, 2024 - Jan 20, 2025), processing over 15,000 news articles and identifying 705 unique accidents. The code generation module achieved 91.3% calibration and 80% validation accuracy. Chittagong reported the highest number of accidents (80), fatalities (70), and injuries (115), followed by Dhaka, Faridpur, Gazipur, and Cox's Bazar. Peak accident times were morning (8-9 AM), noon (12-1 PM), and evening (6-7 PM). A public repository was also developed with usage instructions. This study demonstrates the viability of an LLM-powered, scalable system for accurate, low-effort accident data collection, providing a foundation for data-driven road safety policymaking in Bangladesh.