MARBLE: A Multi-Agent Rule-Based LLM Reasoning Engine for Accident Severity Prediction
作者: Kaleem Ullah Qasim, Jiashu Zhang
分类: cs.AI, cs.CL, cs.MA
发布日期: 2025-07-07
备注: 13 pages, 5 figures
💡 一句话要点
提出MARBLE多智能体规则推理引擎,解决事故严重程度预测难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事故严重程度预测 多智能体系统 规则推理 LLM 可解释性 交通安全 类别不平衡
📋 核心要点
- 现有事故严重程度预测方法难以应对数据不完整、特征强依赖和类别不平衡等挑战,可解释性也较差。
- MARBLE将预测任务分解为多个专注特定特征子集的智能体,通过规则或LLM引导的共识机制协调预测结果。
- 实验表明,MARBLE在准确率上显著优于传统机器学习方法和先进的提示学习方法,提升幅度巨大。
📝 摘要(中文)
事故严重程度预测在交通安全系统中至关重要,但由于数据不完整、特征强依赖以及严重的类别不平衡(罕见但高严重性案例代表性不足且难以检测),这项任务一直具有挑战性。现有方法通常依赖于单体模型或黑盒提示,难以在嘈杂的现实环境中扩展,并且可解释性有限。为了解决这些挑战,我们提出了MARBLE,一种多智能体规则推理引擎,它将严重程度预测任务分解为一组专门的推理智能体,包括一个可互换的机器学习支持的智能体。每个智能体专注于特征的语义子集(例如,空间、环境、时间),从而实现有范围的推理和模块化提示,而没有提示饱和的风险。预测通过基于规则或LLM引导的共识机制进行协调,该机制考虑了类别稀有性和置信度动态。该系统保留了智能体级别推理和协调结果的结构化跟踪,支持深入的可解释性和事后性能诊断。在英国和美国的数据集上,MARBLE始终优于传统的机器学习分类器和最先进的(SOTA)基于提示的推理方法,包括思维链(CoT)、由简入繁(L2M)和思维树(ToT),在其他方法停滞在48%以下的情况下,实现了近90%的准确率。这一性能重新定义了在现实噪声和极端类别不平衡下事故严重程度分类的实际上限。我们的结果将MARBLE定位为一个通用且可解释的框架,用于安全关键应用中不确定性下的推理。
🔬 方法详解
问题定义:论文旨在解决事故严重程度预测问题,现有方法如单体模型和黑盒提示学习方法,难以处理真实世界数据中的噪声、特征依赖和类别不平衡问题,并且缺乏可解释性。这些痛点限制了模型在实际交通安全系统中的应用。
核心思路:论文的核心思路是将复杂的事故严重程度预测任务分解为多个更小、更专注的子任务,每个子任务由一个专门的智能体负责。这种分而治之的方法可以降低单个智能体的复杂性,提高模型的鲁棒性和可解释性。通过智能体之间的协作和协调,可以更好地利用不同特征之间的关系,从而提高预测准确率。
技术框架:MARBLE框架包含多个智能体,每个智能体负责处理特定类型的特征(如空间、环境、时间)。每个智能体使用规则或机器学习模型进行推理,并输出其对事故严重程度的预测。然后,一个共识机制(基于规则或LLM)将各个智能体的预测结果整合起来,生成最终的预测结果。系统会记录每个智能体的推理过程和协调结果,以便进行事后分析和诊断。
关键创新:MARBLE的关键创新在于其多智能体架构和规则/LLM混合的推理方式。与传统的单体模型相比,多智能体架构具有更好的模块化和可扩展性。与黑盒提示学习方法相比,MARBLE的规则和LLM推理过程更具可解释性。此外,MARBLE的共识机制能够有效地处理类别不平衡问题,提高对罕见但高严重性事故的预测准确率。
关键设计:智能体的数量和类型需要根据具体应用场景进行选择。每个智能体的推理规则或机器学习模型需要根据其负责的特征进行设计和训练。共识机制的设计需要考虑不同智能体的置信度和类别稀有性。论文中使用了规则和LLM两种共识机制,具体选择取决于数据集和性能要求。具体的参数设置和损失函数等技术细节在论文中没有详细说明,可能需要根据具体应用进行调整。
🖼️ 关键图片
📊 实验亮点
MARBLE在英国和美国数据集上均表现出色,显著优于传统机器学习分类器和SOTA提示学习方法(CoT、L2M、ToT)。在这些基线方法准确率低于48%的情况下,MARBLE达到了近90%的准确率,重新定义了在真实噪声和极端类别不平衡下事故严重程度分类的性能上限。
🎯 应用场景
MARBLE可应用于智能交通系统,辅助事故预警和应急响应。通过准确预测事故严重程度,可以优化资源分配,提高救援效率,降低事故造成的损失。该研究还可推广到其他安全关键领域,如医疗诊断、金融风险评估等,为复杂决策提供可解释的AI支持。
📄 摘要(原文)
Accident severity prediction plays a critical role in transportation safety systems but is a persistently difficult task due to incomplete data, strong feature dependencies, and severe class imbalance in which rare but high-severity cases are underrepresented and hard to detect. Existing methods often rely on monolithic models or black box prompting, which struggle to scale in noisy, real-world settings and offer limited interpretability. To address these challenges, we propose MARBLE a multiagent rule based LLM engine that decomposes the severity prediction task across a team of specialized reasoning agents, including an interchangeable ML-backed agent. Each agent focuses on a semantic subset of features (e.g., spatial, environmental, temporal), enabling scoped reasoning and modular prompting without the risk of prompt saturation. Predictions are coordinated through either rule-based or LLM-guided consensus mechanisms that account for class rarity and confidence dynamics. The system retains structured traces of agent-level reasoning and coordination outcomes, supporting in-depth interpretability and post-hoc performance diagnostics. Across both UK and US datasets, MARBLE consistently outperforms traditional machine learning classifiers and state-of-the-art (SOTA) prompt-based reasoning methods including Chain-of-Thought (CoT), Least-to-Most (L2M), and Tree-of-Thought (ToT) achieving nearly 90% accuracy where others plateau below 48%. This performance redefines the practical ceiling for accident severity classification under real world noise and extreme class imbalance. Our results position MARBLE as a generalizable and interpretable framework for reasoning under uncertainty in safety-critical applications.