Evaluating and Enhancing Trustworthiness of LLMs in Perception Tasks

📄 arXiv: 2408.01433v1 📥 PDF

作者: Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger

分类: cs.CV, cs.ET

发布日期: 2024-07-18

备注: Accepted in 27th IEEE International Conference on Intelligent Transportation Systems (ITSC) 2024


💡 一句话要点

评估并提升LLM在感知任务中的可信度,以行人检测为例

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 目标检测 幻觉检测 自动驾驶 行人检测 多模态学习 可信度评估

📋 核心要点

  1. 现有ADAS系统日益普及,集成多模态LLM能提升用户体验,但LLM的幻觉问题是主要挑战。
  2. 本文评估了LLM在视觉数据中目标检测任务中的幻觉检测策略,并提出结合历史信息来提升检测效果。
  3. 实验表明,自研LLM优于开源LLM,且结合历史信息的幻觉检测方法能有效提升检测结果。

📝 摘要(中文)

本文系统性地评估了大型语言模型(LLM)在视觉数据中目标检测任务(以行人检测和定位为例)中的幻觉检测策略。研究针对自研的GPT-4V和开源的LLaVA两个先进LLM,在Waymo/US和PREPER CITY/Sweden两个数据集上,评估了三种幻觉检测策略。结果表明,这些LLM能够以令人印象深刻的细节描述交通状况,但在目标定位等进一步分析活动中仍面临挑战。本文还评估并通过结合历史信息来扩展幻觉检测方法,以应用于视频序列中的行人检测。实验表明,目前最先进的自研LLM性能远优于开源LLM。此外,基于投票的一致性增强技术(如Best-of-Three)不能有效减少LLM中行人检测中高假阴性导致的幻觉。

🔬 方法详解

问题定义:论文旨在解决LLM在感知任务中,特别是视觉目标检测任务中出现的幻觉问题。现有方法在将LLM应用于目标检测时,容易产生错误的检测结果,即幻觉,这限制了LLM在自动驾驶等安全关键领域的应用。现有方法缺乏有效的幻觉检测和抑制机制,尤其是在处理视频序列时,无法充分利用时序信息。

核心思路:论文的核心思路是系统性地评估现有的幻觉检测策略,并提出利用历史信息来增强幻觉检测效果。通过分析LLM在不同数据集和不同模型上的表现,找出其弱点,并针对性地提出改进方案。利用视频序列的时序一致性,通过结合过去帧的信息来减少当前帧的幻觉。

技术框架:整体框架包括以下几个阶段:1) 使用LLM对输入图像进行描述,生成文本描述;2) 从文本描述中提取目标检测结果(例如,行人位置);3) 使用幻觉检测策略评估检测结果的可信度;4) 对于视频序列,结合历史帧的信息来进一步提高检测结果的准确性。论文评估了三种幻觉检测策略,并提出了基于历史信息的扩展方法。

关键创新:论文的关键创新在于:1) 系统性地评估了LLM在目标检测任务中的幻觉问题;2) 提出了利用历史信息来增强幻觉检测效果的方法,尤其是在视频序列中;3) 比较了自研LLM和开源LLM在目标检测任务中的性能差异。

关键设计:论文的关键设计包括:1) 选择了GPT-4V和LLaVA两个具有代表性的LLM进行评估;2) 使用Waymo和PREPER CITY两个不同的数据集来验证方法的泛化能力;3) 评估了Best-of-Three (BO3)等一致性增强技术;4) 通过实验分析了不同幻觉检测策略的优缺点;5) 设计了结合历史信息的幻觉检测方法,具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,自研LLM(GPT-4V)在行人检测任务中的性能明显优于开源LLM(LLaVA)。同时,基于投票的一致性增强技术(如BO3)在行人检测中效果不佳,因为LLM容易出现高假阴性。然而,通过结合历史信息,可以有效提高幻觉检测的准确性,从而提升整体的行人检测性能。具体的性能提升幅度未知。

🎯 应用场景

该研究成果可应用于自动驾驶、智能监控、机器人等领域。通过提高LLM在感知任务中的可信度,可以提升ADAS系统的安全性,减少事故风险。此外,该研究还可以促进LLM在其他安全关键领域的应用,例如医疗诊断、金融风控等,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Today's advanced driver assistance systems (ADAS), like adaptive cruise control or rear collision warning, are finding broader adoption across vehicle classes. Integrating such advanced, multimodal Large Language Models (LLMs) on board a vehicle, which are capable of processing text, images, audio, and other data types, may have the potential to greatly enhance passenger comfort. Yet, an LLM's hallucinations are still a major challenge to be addressed. In this paper, we systematically assessed potential hallucination detection strategies for such LLMs in the context of object detection in vision-based data on the example of pedestrian detection and localization. We evaluate three hallucination detection strategies applied to two state-of-the-art LLMs, the proprietary GPT-4V and the open LLaVA, on two datasets (Waymo/US and PREPER CITY/Sweden). Our results show that these LLMs can describe a traffic situation to an impressive level of detail but are still challenged for further analysis activities such as object localization. We evaluate and extend hallucination detection approaches when applying these LLMs to video sequences in the example of pedestrian detection. Our experiments show that, at the moment, the state-of-the-art proprietary LLM performs much better than the open LLM. Furthermore, consistency enhancement techniques based on voting, such as the Best-of-Three (BO3) method, do not effectively reduce hallucinations in LLMs that tend to exhibit high false negatives in detecting pedestrians. However, extending the hallucination detection by including information from the past helps to improve results.