Tapping in a Remote Vehicle's onboard LLM to Complement the Ego Vehicle's Field-of-View
作者: Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger
分类: cs.CV
发布日期: 2024-08-20
备注: 50th Euromicro Conference Series on Software Engineering and Advanced Applications (SEAA) 2024 - WiP
💡 一句话要点
利用远程车辆车载LLM增强自车视野,提升交通安全
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 车载LLM 协同感知 自动驾驶 高级驾驶辅助系统 车车通信 交通安全 多模态学习
📋 核心要点
- 现有ADAS在视线遮挡场景下存在局限性,无法充分利用其他车辆的感知信息。
- 利用远程车辆的车载LLM,通过机器对话的方式,补充自车视野,提升感知能力。
- 实验表明,GPT-4V和GPT-4o等LLM能够理解交通状况,并识别交通参与者,但需优化提示。
📝 摘要(中文)
当前先进的汽车系统正转变为智能信息物理系统(CPS),将计算智能引入其物理环境。这些系统驱动着高级驾驶辅助系统(ADAS),通过观察车辆周围环境来实现其功能。然而,当周围物体的直接视线被遮挡时,例如在城市区域,此类ADAS存在明显的局限性。想象一下,如果自动驾驶(AD)系统能够受益于其他车辆的视野,例如在行人位置信息可以在车辆之间共享的情况下,这将提高交通安全性。现有文献提出了通过路侧单元(RSU)的车路协同(V2I)或车车通信(V2V)来解决此类问题,从而在车辆之间传输传感器或物体数据。考虑到车辆系统架构正在向具有硬件加速器和强大集中处理单元的方向发展,车载大型语言模型(LLM)的出现将改善乘客使用语音助手时的舒适度。我们提出并评估了一种概念,即通过利用另一辆车的车载LLM,让机器就另一辆车“看到”的内容进行对话,从而补充自车视野(FOV)。我们的结果表明,GPT-4V和GPT-4o等最新版本的LLM对交通状况的理解达到了令人印象深刻的详细程度,因此,它们甚至可以用于识别交通参与者。然而,需要更好的提示来提高检测质量,并且未来需要开发车辆之间标准化的消息交换格式。
🔬 方法详解
问题定义:论文旨在解决自动驾驶和高级驾驶辅助系统在城市等复杂环境中,由于视线遮挡而导致的感知能力不足的问题。现有方法主要依赖于车辆自身的传感器或V2I/V2V通信传输原始传感器数据或目标检测结果,但前者受限于自身视野,后者则面临带宽和隐私等挑战。
核心思路:论文的核心思路是利用其他车辆上已经存在的、用于语音助手等功能的LLM,通过设计合适的prompt,让这些LLM理解其车辆的视觉输入(例如摄像头图像),并提取出对自车有用的信息。这样既可以扩展自车的感知范围,又避免了直接传输原始数据,降低了带宽需求和隐私风险。
技术框架:整体框架包含以下几个主要步骤:1) 远程车辆通过摄像头等传感器获取周围环境的图像;2) 远程车辆上的LLM接收图像和prompt,生成对交通状况的描述;3) 自车接收到远程车辆LLM的输出;4) 自车利用这些信息来增强自身的感知能力,例如识别被遮挡的行人。
关键创新:最重要的创新点在于将车载LLM用于车辆之间的信息共享,从而实现协同感知。与传统的V2I/V2V方法相比,该方法利用了LLM的语义理解能力,传输的是高层次的交通状况描述,而不是原始的传感器数据或目标检测结果。
关键设计:论文的关键设计在于如何设计有效的prompt,使得远程车辆的LLM能够准确地理解交通状况,并提取出对自车有用的信息。此外,还需要考虑如何将LLM的输出转换成自车可以理解和利用的格式。论文中提到需要未来工作来标准化车辆之间的消息交换格式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4V和GPT-4o等最新版本的LLM能够理解交通状况,并识别交通参与者。虽然论文中没有给出具体的性能数据,但强调了LLM在理解交通场景方面的潜力。未来的工作将集中在优化prompt和标准化消息交换格式上,以进一步提高检测质量。
🎯 应用场景
该研究成果可应用于自动驾驶、高级驾驶辅助系统等领域,尤其是在城市复杂交通环境中,可以有效提升车辆的感知能力和安全性。通过车辆间的协同感知,可以减少交通事故,提高交通效率,并为未来的智能交通系统提供新的思路。
📄 摘要(原文)
Today's advanced automotive systems are turning into intelligent Cyber-Physical Systems (CPS), bringing computational intelligence to their cyber-physical context. Such systems power advanced driver assistance systems (ADAS) that observe a vehicle's surroundings for their functionality. However, such ADAS have clear limitations in scenarios when the direct line-of-sight to surrounding objects is occluded, like in urban areas. Imagine now automated driving (AD) systems that ideally could benefit from other vehicles' field-of-view in such occluded situations to increase traffic safety if, for example, locations about pedestrians can be shared across vehicles. Current literature suggests vehicle-to-infrastructure (V2I) via roadside units (RSUs) or vehicle-to-vehicle (V2V) communication to address such issues that stream sensor or object data between vehicles. When considering the ongoing revolution in vehicle system architectures towards powerful, centralized processing units with hardware accelerators, foreseeing the onboard presence of large language models (LLMs) to improve the passengers' comfort when using voice assistants becomes a reality. We are suggesting and evaluating a concept to complement the ego vehicle's field-of-view (FOV) with another vehicle's FOV by tapping into their onboard LLM to let the machines have a dialogue about what the other vehicle ``sees''. Our results show that very recent versions of LLMs, such as GPT-4V and GPT-4o, understand a traffic situation to an impressive level of detail, and hence, they can be used even to spot traffic participants. However, better prompts are needed to improve the detection quality and future work is needed towards a standardised message interchange format between vehicles.