Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety

📄 arXiv: 2504.07022v1 📥 PDF

作者: Chad Melton, Alex Sorokine, Steve Peterson

分类: cs.CL

发布日期: 2025-04-09

备注: 14 pages, 3 Figures, 3 tables


💡 一句话要点

评估检索增强生成模型在交通安全文档查询中的应用,RAG-LLaMA表现突出。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 交通安全 危险品运输 法规信息检索 LLaMA RAG-LLaMA

📋 核心要点

  1. 大型语言模型在危险品运输等高风险领域的应用面临准确性和可靠性的挑战。
  2. 采用检索增强生成(RAG)方法,结合领域知识库,提升模型在特定任务上的表现。
  3. 实验表明,RAG增强的LLaMA模型在危险品运输法规信息检索方面优于其他模型。

📝 摘要(中文)

本研究评估了三种微调生成模型(ChatGPT、Google Vertex AI和ORNL的检索增强生成(RAG)增强的LLaMA 2和LLaMA)在美国危险品运输合规所需的法规信息检索性能。利用约40份公开的联邦和州法规文件,构建了100个与路线规划和许可要求相关的实际查询。通过定性评估(准确性、细节和相关性)和定量评估(模型输出之间的语义相似性)对响应进行评分。结果表明,RAG增强的LLaMA模型明显优于Vertex AI和ChatGPT,提供了更详细和通常更准确的信息,尽管偶尔存在不一致。这项研究首次将RAG应用于交通安全领域,强调了领域特定微调和严格评估方法的重要性,以确保高风险环境中的可靠性并最大限度地减少不准确的风险。

🔬 方法详解

问题定义:论文旨在解决危险品运输领域中,利用大型语言模型进行法规信息检索时,模型准确性和可靠性不足的问题。现有方法,如直接使用通用LLM,无法保证在高风险场景下的准确性,可能导致错误决策和安全隐患。

核心思路:论文的核心思路是利用检索增强生成(RAG)框架,将外部知识库的信息融入到LLM的生成过程中。通过检索与查询相关的法规文档,并将这些文档作为上下文提供给LLM,从而提高模型生成答案的准确性和相关性。

技术框架:整体框架包含以下几个主要模块:1) 文档索引:构建包含联邦和州法规文档的向量数据库。2) 查询检索:根据用户查询,从向量数据库中检索相关文档。3) 上下文增强:将检索到的文档作为上下文信息添加到用户查询中。4) 生成模型:使用LLM(如LLaMA 2)基于增强的查询生成答案。

关键创新:该研究首次将RAG应用于交通安全领域,并针对危险品运输法规信息检索任务进行了优化。通过领域特定的数据和评估指标,验证了RAG在提高LLM在该领域准确性和可靠性方面的有效性。

关键设计:论文使用了LLaMA 2作为基础LLM,并使用领域相关的法规文档对其进行微调。在RAG过程中,使用了余弦相似度来衡量查询和文档之间的相关性,并选择最相关的文档作为上下文。评估指标包括准确性、细节和相关性的定性评估,以及语义相似性的定量评估。

📊 实验亮点

实验结果表明,RAG增强的LLaMA模型在危险品运输法规信息检索任务中,显著优于ChatGPT和Google Vertex AI。RAG-LLaMA模型提供了更详细、更准确的信息,证明了RAG在提高LLM领域特定任务性能方面的有效性。该研究强调了领域特定微调和严格评估方法的重要性。

🎯 应用场景

该研究成果可应用于危险品运输、航空安全、医疗健康等高风险领域,帮助专业人员快速准确地获取法规信息,辅助决策,提高工作效率,降低安全风险。未来可扩展到其他需要高度准确性和可靠性的信息检索场景。

📄 摘要(原文)

Applications of generative Large Language Models LLMs are rapidly expanding across various domains, promising significant improvements in workflow efficiency and information retrieval. However, their implementation in specialized, high-stakes domains such as hazardous materials transportation is challenging due to accuracy and reliability concerns. This study evaluates the performance of three fine-tuned generative models, ChatGPT, Google's Vertex AI, and ORNL Retrieval Augmented Generation augmented LLaMA 2 and LLaMA in retrieving regulatory information essential for hazardous material transportation compliance in the United States. Utilizing approximately 40 publicly available federal and state regulatory documents, we developed 100 realistic queries relevant to route planning and permitting requirements. Responses were qualitatively rated based on accuracy, detail, and relevance, complemented by quantitative assessments of semantic similarity between model outputs. Results demonstrated that the RAG-augmented LLaMA models significantly outperformed Vertex AI and ChatGPT, providing more detailed and generally accurate information, despite occasional inconsistencies. This research introduces the first known application of RAG in transportation safety, emphasizing the need for domain-specific fine-tuning and rigorous evaluation methodologies to ensure reliability and minimize the risk of inaccuracies in high-stakes environments.