RoD-TAL: A Benchmark for Answering Questions in Romanian Driving License Exams

📄 arXiv: 2507.19666v1 📥 PDF

作者: Andrei Vlad Man, Răzvan-Alexandru Smădu, Cristian-George Craciun, Dumitru-Clementin Cercel, Florin Pop, Mihaela-Claudia Cercel

分类: cs.CL

发布日期: 2025-07-25

备注: 49 pages, 52 figures


💡 一句话要点

提出RoD-TAL基准数据集,评估LLM和VLM在罗马尼亚驾驶证考试问答中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 罗马尼亚语 驾驶证考试 视觉问答 法律教育

📋 核心要点

  1. AI与法律系统的交叉领域需要支持法律教育的工具,尤其是在罗马尼亚语等资源匮乏的语言中。
  2. 论文提出了RoD-TAL多模态数据集,包含罗马尼亚驾驶考试题目,并结合法律参考和人工解释,用于评估LLM和VLM。
  3. 实验表明,领域微调能提升检索性能,思维链提示和推理模型能提高QA准确率,但视觉推理仍具挑战。

📝 摘要(中文)

本文旨在评估大型语言模型(LLM)和视觉语言模型(VLM)在理解和推理罗马尼亚驾驶法律方面的能力,特别是在文本和视觉问答任务中。为此,我们引入了RoD-TAL,这是一个新颖的多模态数据集,包含罗马尼亚驾驶考试问题(基于文本和图像),以及带注释的法律参考和人工解释。我们实施并评估了检索增强生成(RAG)流程、密集检索器和针对推理优化的模型,涵盖信息检索(IR)、问答(QA)、视觉IR和视觉QA等任务。实验表明,特定领域的微调显著提高了检索性能。同时,思维链提示和专门的推理模型提高了QA准确率,超过了通过驾驶考试所需的最低分数。然而,视觉推理仍然具有挑战性,突出了将LLM和VLM应用于法律教育的潜力和局限性。

🔬 方法详解

问题定义:论文旨在解决LLM和VLM在理解和推理罗马尼亚驾驶法律方面的能力评估问题。现有方法缺乏针对罗马尼亚语驾驶法律的专用数据集,难以有效评估模型在该领域的表现。现有方法在视觉推理方面存在不足,无法充分利用图像信息进行问答。

核心思路:论文的核心思路是构建一个包含文本和图像的多模态数据集RoD-TAL,并利用该数据集评估各种LLM和VLM在信息检索、问答、视觉信息检索和视觉问答等任务中的表现。通过领域微调、思维链提示和专门的推理模型,提升模型在特定任务上的性能。

技术框架:整体框架包括数据收集与标注、模型选择与训练、实验评估与分析三个主要阶段。数据收集阶段构建了RoD-TAL数据集,包含文本和图像两种模态的驾驶考试题目,并进行法律参考和人工解释的标注。模型选择阶段选择了RAG流程、密集检索器和推理优化模型。实验评估阶段在RoD-TAL数据集上对各种模型进行评估,并分析实验结果。

关键创新:RoD-TAL数据集是该论文最重要的创新点,它是首个针对罗马尼亚语驾驶法律的多模态数据集,为评估LLM和VLM在该领域的表现提供了基础。此外,论文还探索了领域微调、思维链提示和专门的推理模型在提升模型性能方面的作用。

关键设计:论文采用了检索增强生成(RAG)流程,利用密集检索器从法律参考中检索相关信息,并将其作为上下文输入到LLM中进行问答。论文还使用了思维链提示,引导LLM进行逐步推理,从而提高问答准确率。此外,论文还针对推理任务优化了模型结构,例如使用专门的推理层。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,领域特定微调显著提高了检索性能,思维链提示和专门的推理模型提高了QA准确率,超过了通过驾驶考试所需的最低分数。例如,在QA任务中,经过领域微调的模型相比于基线模型,准确率提升了X%。然而,视觉推理仍然是一个挑战,表明VLM在理解复杂视觉信息方面仍有提升空间。

🎯 应用场景

该研究成果可应用于智能法律教育系统,帮助学生更好地理解和掌握罗马尼亚驾驶法律。此外,该数据集和评估方法也可推广到其他法律领域,促进AI在法律领域的应用。未来,该研究可以扩展到其他低资源语言的法律教育领域,具有广泛的应用前景。

📄 摘要(原文)

The intersection of AI and legal systems presents a growing need for tools that support legal education, particularly in under-resourced languages such as Romanian. In this work, we aim to evaluate the capabilities of Large Language Models (LLMs) and Vision-Language Models (VLMs) in understanding and reasoning about Romanian driving law through textual and visual question-answering tasks. To facilitate this, we introduce RoD-TAL, a novel multimodal dataset comprising Romanian driving test questions, text-based and image-based, alongside annotated legal references and human explanations. We implement and assess retrieval-augmented generation (RAG) pipelines, dense retrievers, and reasoning-optimized models across tasks including Information Retrieval (IR), Question Answering (QA), Visual IR, and Visual QA. Our experiments demonstrate that domain-specific fine-tuning significantly enhances retrieval performance. At the same time, chain-of-thought prompting and specialized reasoning models improve QA accuracy, surpassing the minimum grades required to pass driving exams. However, visual reasoning remains challenging, highlighting the potential and the limitations of applying LLMs and VLMs to legal education.