Do LLMs Understand Romanian Driving Laws? A Study on Multimodal and Fine-Tuned Question Answering

📄 arXiv: 2509.23715v1 📥 PDF

作者: Eduard Barbu, Adrian Marius Dumitran

分类: cs.CL, cs.LG

发布日期: 2025-09-28

备注: Accepted@ CONSILR 2025 Bucharest Romania 9-10 October


💡 一句话要点

评估LLM在罗马尼亚驾驶法规问答任务中的表现,并探索领域微调和多模态输入的影响。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 驾驶法规问答 多模态学习 领域微调 罗马尼亚语 可解释性 LLM评估

📋 核心要点

  1. 现有方法在处理罗马尼亚驾驶法规问答任务时,缺乏针对特定语言和领域知识的优化。
  2. 论文提出通过构建多模态数据集和对LLM进行领域特定微调,提升模型在该任务上的表现。
  3. 实验表明,微调后的8B模型具有竞争力,且图像的文本描述优于直接视觉输入。

📝 摘要(中文)

本研究旨在评估大型语言模型(LLMs)在罗马尼亚驾驶法规问答任务中的表现,并生成相应的解释,这对道路安全至关重要。我们发布了一个包含1208个问题的多模态数据集(其中387个为多模态问题),并比较了当前最优的文本和多模态系统。此外,我们还衡量了针对Llama 3.1-8B-Instruct和RoLlama 3.1-8B-Instruct进行领域特定微调的影响。实验结果表明,当前最优模型表现良好,但经过微调的8B模型也具有竞争力。图像的文本描述优于直接视觉输入。最后,我们使用LLM作为评估者来评估解释的质量,揭示了自我偏好偏差。这项研究为资源较少语言的可解释问答提供了参考。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLMs)在理解和应用罗马尼亚驾驶法规方面的能力。现有方法在处理此类任务时,可能面临以下痛点:缺乏针对罗马尼亚语的优化,难以有效处理包含图像的多模态信息,以及缺乏对模型生成解释的质量评估。

核心思路:论文的核心解决思路是通过构建一个包含文本和图像的多模态数据集,并对LLMs进行领域特定微调,从而提升模型在罗马尼亚驾驶法规问答任务中的表现。此外,论文还探索了使用LLM作为评估者来评估模型生成解释的质量。

技术框架:整体流程包括以下几个阶段:1) 构建包含文本和图像的罗马尼亚驾驶法规问答数据集;2) 比较当前最优的文本和多模态系统在该数据集上的表现;3) 对Llama 3.1-8B-Instruct和RoLlama 3.1-8B-Instruct进行领域特定微调;4) 使用LLM作为评估者来评估模型生成解释的质量。

关键创新:论文的关键创新点在于:1) 构建了一个包含多模态信息的罗马尼亚驾驶法规问答数据集,为该领域的研究提供了资源;2) 探索了领域特定微调对LLMs在该任务上的影响,并发现微调后的8B模型具有竞争力;3) 使用LLM作为评估者来评估模型生成解释的质量,并揭示了自我偏好偏差。

关键设计:论文的关键设计包括:1) 数据集的构建,包括文本问题和包含图像的多模态问题;2) 领域特定微调,针对Llama 3.1-8B-Instruct和RoLlama 3.1-8B-Instruct进行微调;3) 使用LLM作为评估者,评估模型生成解释的质量,具体的评估指标和方法未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前最优模型在罗马尼亚驾驶法规问答任务中表现良好,但经过领域特定微调的8B模型也具有竞争力。此外,图像的文本描述优于直接视觉输入,这表明在处理多模态信息时,文本描述可能更有效。最后,使用LLM作为评估者评估解释质量时,揭示了自我偏好偏差。

🎯 应用场景

该研究成果可应用于智能驾驶辅助系统、驾驶员培训平台和交通法规咨询服务等领域。通过提升LLM对驾驶法规的理解和应用能力,可以帮助驾驶员更好地掌握交通规则,减少交通事故的发生,并为相关领域的智能化应用提供技术支持。未来,该研究可以扩展到其他语言和地区的驾驶法规问答任务中。

📄 摘要(原文)

Ensuring that both new and experienced drivers master current traffic rules is critical to road safety. This paper evaluates Large Language Models (LLMs) on Romanian driving-law QA with explanation generation. We release a 1{,}208-question dataset (387 multimodal) and compare text-only and multimodal SOTA systems, then measure the impact of domain-specific fine-tuning for Llama 3.1-8B-Instruct and RoLlama 3.1-8B-Instruct. SOTA models perform well, but fine-tuned 8B models are competitive. Textual descriptions of images outperform direct visual input. Finally, an LLM-as-a-Judge assesses explanation quality, revealing self-preference bias. The study informs explainable QA for less-resourced languages.