Improving Aviation Safety Analysis: Automated HFACS Classification Using Reinforcement Learning with Group Relative Policy Optimization
作者: Arash Ahmadi, Sarah Sharif, Yaser Banad
分类: cs.CL, cs.AI
发布日期: 2025-08-28
💡 一句话要点
提出基于强化学习的HFACS自动分类框架,提升航空安全分析效率与准确性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 航空安全分析 HFACS分类 强化学习 群体相对策略优化 语言模型微调 自动化 多标签分类
📋 核心要点
- 传统HFACS分析航空事故依赖人工,存在可扩展性和一致性问题,效率较低。
- 利用强化学习和群体相对策略优化微调Llama-3.1 8B模型,实现HFACS自动分类。
- 实验表明,该方法显著提升了精确匹配准确率,且优于GPT-5-mini和Gemini-2.5-fiash等模型。
📝 摘要(中文)
本研究提出了一种用于航空安全分析的自动化HFACS分类框架。该框架利用带有群体相对策略优化(GRPO)的强化学习来微调Llama-3.1 8B语言模型。该方法结合了为航空安全分析定制的多组件奖励系统,并整合了合成数据生成以克服事故数据集中存在的类别不平衡问题。经过GRPO优化的模型取得了显著的性能提升,包括精确匹配准确率提高了350%(从0.0400到0.1800),部分匹配准确率提高到0.8800。重要的是,该模型在关键指标上优于最先进的LLM,包括GPT-5-mini和Gemini-2.5-fiash。该研究还提出将多标签HFACS分类问题中的精确匹配准确率作为评估语言模型高级推理能力的新基准方法。最终,该研究验证了较小的、领域优化的模型可以为关键安全分析提供计算效率更高且更好的解决方案,并使在资源受限的边缘设备上进行强大的低延迟部署成为可能。
🔬 方法详解
问题定义:论文旨在解决航空安全分析中,人工使用HFACS进行事故分类时效率低、可扩展性差和一致性不足的问题。现有方法依赖专家手动分析,耗时且主观性强,难以处理大规模事故数据。
核心思路:论文的核心思路是利用强化学习(RL)自动学习HFACS分类策略。通过将HFACS分类过程建模为RL任务,并设计合适的奖励函数,引导语言模型学习如何准确地将事故报告分类到不同的HFACS类别中。使用群体相对策略优化(GRPO)来稳定训练过程并提升性能。
技术框架:整体框架包含以下几个主要模块:1) 数据预处理:清洗和准备航空事故报告数据。2) 合成数据生成:使用数据增强技术生成更多训练数据,解决类别不平衡问题。3) RL环境构建:将HFACS分类任务建模为RL环境,定义状态空间、动作空间和奖励函数。4) 模型训练:使用GRPO算法微调Llama-3.1 8B语言模型。5) 模型评估:使用精确匹配准确率和部分匹配准确率等指标评估模型性能。
关键创新:最重要的技术创新点在于将强化学习与群体相对策略优化相结合,用于微调大型语言模型以进行HFACS分类。此外,论文还提出了精确匹配准确率作为多标签HFACS分类问题的新基准方法,用于评估语言模型的高级推理能力。与现有方法相比,该方法能够自动学习分类策略,无需人工干预,且具有更好的可扩展性和一致性。
关键设计:奖励函数是关键设计之一,它由多个组件组成,包括分类准确率奖励、类别平衡奖励等,旨在引导模型学习准确且平衡的分类策略。GRPO算法用于稳定训练过程,避免策略崩溃。合成数据生成采用多种数据增强技术,包括文本替换、文本插入等,以增加训练数据的多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过GRPO优化的Llama-3.1 8B模型在HFACS分类任务上取得了显著的性能提升,精确匹配准确率从0.0400提高到0.1800,提升幅度高达350%,部分匹配准确率达到0.8800。更重要的是,该模型在关键指标上优于GPT-5-mini和Gemini-2.5-fiash等最先进的LLM,验证了领域优化的小型模型在特定任务上的优势。
🎯 应用场景
该研究成果可应用于航空安全管理部门,用于快速分析事故报告,识别潜在的人为因素风险,并制定相应的预防措施。此外,该方法还可扩展到其他安全关键领域,如医疗、交通等,用于自动化安全事件分析和风险评估。未来,该技术有望集成到智能安全系统中,实现实时风险预警和干预。
📄 摘要(原文)
Analyzing the human factors behind aviation accidents is crucial for preventing future incidents, yet traditional methods using the Human Factors Analysis and Classification System (HFACS) are limited by scalability and consistency. To address this, we introduce an automated HFACS classification framework for aviation safety analysis that utilizes Reinforcement Learning with Group Relative Policy Optimization (GRPO) to fine-tune a Llama-3.1 8B language model. Our approach incorporates a multi-component reward system tailored for aviation safety analysis and integrates synthetic data generation to overcome class imbalance in accident datasets. The resulting GRPO-optimized model achieved noticeable performance gains, including a 350% increase in exact match accuracy (from 0.0400 to 0.1800) and an improved partial match accuracy of 0.8800. Significantly, our specialized model outperforms state-of-the-art LLMs (Large Language Models), including GPT-5-mini and Gemini-2.5-fiash, on key metrics. This research also proposes exact match accuracy in multi-label HFACS classification problem as a new benchmarking methodology to evaluate the advanced reasoning capabilities of language models. Ultimately, our work validates that smaller, domain-optimized models can provide a computationally efficient and better solution for critical safety analysis. This approach makes powerful, low-latency deployment on resource-constrained edge devices feasible.