RAG-based Explainable Prediction of Road Users Behaviors for Automated Driving using Knowledge Graphs and Large Language Models
作者: Mohamed Manzour Hussien, Angie Nataly Melo, Augusto Luis Ballardini, Carlota Salinas Maldonado, Rubén Izquierdo, Miguel Ángel Sotelo
分类: cs.LG, cs.AI, cs.CL, cs.IR, cs.NE
发布日期: 2024-05-01
💡 一句话要点
提出基于RAG的知识图谱与大语言模型融合方法,用于自动驾驶中道路使用者行为的可解释预测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 行为预测 知识图谱 大语言模型 检索增强生成 可解释性 贝叶斯推理
📋 核心要点
- 现有道路使用者行为预测方法过度依赖运动学信息,忽略了环境上下文对人类行为的影响。
- 该论文提出了一种基于RAG的框架,结合知识图谱的推理能力和大语言模型的表达能力,实现可解释的预测。
- 实验表明,该方法在行人穿越和车道变换预测任务中,性能超越了现有技术水平,尤其在提前预测方面。
📝 摘要(中文)
近年来,自动驾驶背景下道路使用者行为预测受到了广泛关注。现有方法大多仅基于运动学信息进行预测,忽略了道路使用者作为人受周围环境影响的事实。此外,大量研究依赖于深度学习技术,虽然在预测任务中表现出色,但缺乏对道路场景中上下文语义信息的充分理解和利用能力,也无法提供人类可理解的可解释预测。本文提出了一种可解释的道路使用者行为预测系统,该系统通过检索增强生成(RAG)技术,整合了知识图谱(KG)的推理能力和大语言模型(LLM)的表达能力。通过结合知识图谱嵌入(KGE)和贝叶斯推理,实现了一个完全归纳的推理系统,能够基于图谱中的历史信息以及车载传感器实时收集的当前证据进行预测。该方法在行人穿越行为预测和车道变换预测两个用例中进行了验证,性能在提前性和F1分数方面均超过了当前最先进水平,为该领域的未来研究提供了一个有希望的方向。
🔬 方法详解
问题定义:现有自动驾驶系统中的道路使用者行为预测方法,主要依赖于运动学数据,忽略了道路场景的上下文语义信息,导致预测精度受限且缺乏可解释性。深度学习方法虽然性能优异,但难以理解和利用场景中的复杂关系,并且预测结果难以解释。
核心思路:该论文的核心思路是利用知识图谱(KG)存储道路场景的先验知识和关系,并结合大语言模型(LLM)的强大表达能力,通过检索增强生成(RAG)框架,实现基于上下文语义信息的道路使用者行为预测。这种方法旨在提高预测的准确性和可解释性。
技术框架:该系统主要包含以下几个模块:1) 知识图谱构建模块,用于构建包含道路场景信息的知识图谱;2) 知识图谱嵌入(KGE)模块,用于学习知识图谱中实体和关系的向量表示;3) 贝叶斯推理模块,用于结合KGE和实时传感器数据进行行为预测;4) RAG模块,用于从知识图谱中检索相关信息,并将其输入到LLM中生成可解释的预测结果。
关键创新:该论文的关键创新在于将知识图谱的推理能力和大语言模型的表达能力相结合,通过RAG框架实现可解释的道路使用者行为预测。与传统的基于运动学数据或深度学习的方法相比,该方法能够更好地理解和利用道路场景的上下文语义信息,从而提高预测的准确性和可解释性。此外,使用知识图谱嵌入和贝叶斯推理,构建了一个完全归纳的推理系统。
关键设计:知识图谱的构建需要仔细设计实体和关系的类型,以充分表达道路场景的信息。知识图谱嵌入方法的选择需要考虑计算效率和表示能力。贝叶斯推理模块需要根据具体的预测任务设计合适的概率模型。RAG模块需要设计有效的检索策略,以从知识图谱中检索到相关的信息。具体参数设置和损失函数等细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在行人穿越行为预测和车道变换预测两个用例中,性能均超过了当前最先进水平。在提前性和F1分数方面均有显著提升,表明该方法能够更早地预测道路使用者的行为,并提高预测的准确性。具体提升幅度未在摘要中给出,属于未知信息。
🎯 应用场景
该研究成果可应用于自动驾驶系统,提高其对道路使用者行为的预测能力,从而提升自动驾驶的安全性和可靠性。通过提供可解释的预测结果,有助于增强用户对自动驾驶系统的信任。此外,该方法还可以应用于智能交通管理系统,用于预测交通流量和拥堵情况。
📄 摘要(原文)
Prediction of road users' behaviors in the context of autonomous driving has gained considerable attention by the scientific community in the last years. Most works focus on predicting behaviors based on kinematic information alone, a simplification of the reality since road users are humans, and as such they are highly influenced by their surrounding context. In addition, a large plethora of research works rely on powerful Deep Learning techniques, which exhibit high performance metrics in prediction tasks but may lack the ability to fully understand and exploit the contextual semantic information contained in the road scene, not to mention their inability to provide explainable predictions that can be understood by humans. In this work, we propose an explainable road users' behavior prediction system that integrates the reasoning abilities of Knowledge Graphs (KG) and the expressiveness capabilities of Large Language Models (LLM) by using Retrieval Augmented Generation (RAG) techniques. For that purpose, Knowledge Graph Embeddings (KGE) and Bayesian inference are combined to allow the deployment of a fully inductive reasoning system that enables the issuing of predictions that rely on legacy information contained in the graph as well as on current evidence gathered in real time by onboard sensors. Two use cases have been implemented following the proposed approach: 1) Prediction of pedestrians' crossing actions; 2) Prediction of lane change maneuvers. In both cases, the performance attained surpasses the current state of the art in terms of anticipation and F1-score, showing a promising avenue for future research in this field.