Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles

作者: Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao

分类: cs.AI, cs.NI, cs.RO

发布日期: 2024-07-24

💡 一句话要点

评估大语言模型在智能网联汽车驾驶理论知识和技能方面的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自动驾驶 驾驶理论测试 智能网联汽车 模型评估

📋 核心要点

自动驾驶汽车面临的主要挑战是处理长尾的极端情况，而大语言模型在处理这些情况方面具有巨大的潜力。
本文提出了一种利用远程或边缘LLM来辅助自动驾驶的方法，并重点关注评估LLM对驾驶理论和技能的理解。
实验结果表明，GPT-4在驾驶理论测试中表现出色，但成本较高，而其他模型如GPT-3.5则未能通过测试。

📝 摘要（中文）

本文研究了应用远程或边缘大语言模型（LLM）辅助自动驾驶的新方法。针对这种LLM辅助驾驶系统，评估LLM对驾驶理论和技能的理解至关重要，以确保其有资格承担智能网联汽车（CAV）的安全关键驾驶辅助任务。我们设计并运行了针对多个专有LLM模型（OpenAI GPT模型、百度文心和阿里QWen）和开源LLM模型（清华MiniCPM-2B和MiniCPM-Llama3-V2.5）的驾驶理论测试，包含500多个多项选择题。实验测量了模型的准确性、成本和处理延迟。结果表明，GPT-4通过了测试，领域知识有所提高，文心的准确率为85%（略低于86%的通过阈值），而包括GPT-3.5在内的其他LLM模型未能通过测试。对于带有图像的测试题，多模态模型GPT4-o的准确率高达96%，MiniCPM-Llama3-V2.5的准确率为76%。虽然GPT-4在CAV驾驶辅助应用方面具有更强的潜力，但使用GPT-4的成本远高于GPT-3.5，几乎是其50倍。这些结果有助于决定使用现有LLM进行CAV应用，并在模型性能和成本之间取得平衡。

🔬 方法详解

问题定义：自动驾驶汽车在处理长尾极端情况时面临挑战，需要更强的泛化能力和解释能力。现有方法难以有效利用大语言模型（LLM）的潜力，并且缺乏对LLM在驾驶理论和技能方面理解的充分评估。因此，需要一种方法来评估LLM是否具备胜任安全关键驾驶辅助任务的能力。

核心思路：本文的核心思路是通过设计一套全面的驾驶理论测试题，来评估不同LLM模型在驾驶知识和技能方面的掌握程度。通过对比不同模型的准确率、成本和延迟，为选择合适的LLM模型用于CAV应用提供依据。这种方法旨在弥合LLM能力与自动驾驶安全需求之间的差距。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 设计包含500多个多项选择题的驾驶理论测试集，涵盖各种驾驶场景和规则；2) 选择多个专有和开源的LLM模型进行测试，包括GPT系列、文心、QWen、MiniCPM等；3) 运行测试，记录每个模型的准确率、成本和处理延迟；4) 分析实验结果，评估不同模型在驾驶辅助应用中的潜力，并权衡性能和成本。

关键创新：该研究的关键创新在于将LLM应用于自动驾驶领域，并提出了一种系统性的评估方法来衡量LLM在驾驶理论知识方面的能力。此外，研究还对比了不同LLM模型的性能和成本，为实际应用提供了有价值的参考。

关键设计：测试集包含多种类型的题目，包括文字描述和带有图像的题目，以全面评估LLM的理解能力。实验中，准确率被用作衡量模型性能的主要指标，成本则通过API调用费用来评估。对于多模态模型，图像的处理方式和融合策略也是关键的设计细节，但论文中未详细说明。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPT-4在驾驶理论测试中表现最佳，通过了测试，而文心的准确率接近通过阈值。对于带有图像的测试题，GPT4-o的准确率高达96%，MiniCPM-Llama3-V2.5的准确率为76%。然而，GPT-4的成本远高于GPT-3.5，几乎是其50倍。这些结果为在CAV应用中选择合适的LLM模型提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于智能网联汽车的驾驶辅助系统，通过利用LLM的知识和推理能力，提高自动驾驶系统在复杂场景下的安全性和可靠性。此外，该研究提出的评估方法也可用于评估其他AI模型在特定领域的应用潜力，为AI技术的安全部署提供保障。

📄 摘要（原文）

Handling long tail corner cases is a major challenge faced by autonomous vehicles (AVs). While large language models (LLMs) hold great potentials to handle the corner cases with excellent generalization and explanation capabilities and received increasing research interest on application to autonomous driving, there are still technical barriers to be tackled, such as strict model performance and huge computing resource requirements of LLMs. In this paper, we investigate a new approach of applying remote or edge LLMs to support autonomous driving. A key issue for such LLM assisted driving system is the assessment of LLMs on their understanding of driving theory and skills, ensuring they are qualified to undertake safety critical driving assistance tasks for CAVs. We design and run driving theory tests for several proprietary LLM models (OpenAI GPT models, Baidu Ernie and Ali QWen) and open-source LLM models (Tsinghua MiniCPM-2B and MiniCPM-Llama3-V2.5) with more than 500 multiple-choices theory test questions. Model accuracy, cost and processing latency are measured from the experiments. Experiment results show that while model GPT-4 passes the test with improved domain knowledge and Ernie has an accuracy of 85% (just below the 86% passing threshold), other LLM models including GPT-3.5 fail the test. For the test questions with images, the multimodal model GPT4-o has an excellent accuracy result of 96%, and the MiniCPM-Llama3-V2.5 achieves an accuracy of 76%. While GPT-4 holds stronger potential for CAV driving assistance applications, the cost of using model GPT4 is much higher, almost 50 times of that of using GPT3.5. The results can help make decision on the use of the existing LLMs for CAV applications and balancing on the model performance and cost.

Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理