Automating eHMI Action Design with LLMs for Automated Vehicle Communication

📄 arXiv: 2505.20711v2 📥 PDF

作者: Ding Xia, Xinyue Gui, Fan Gao, Dongyuan Li, Mark Colley, Takeo Igarashi

分类: cs.HC, cs.RO

发布日期: 2025-05-27 (更新: 2025-10-10)

备注: Accepted as findings for EMNLP 2025


💡 一句话要点

提出基于LLM的eHMI动作自动设计流程,提升自动驾驶车辆通信的适应性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 外部人机界面 大型语言模型 动作设计 人机交互

📋 核心要点

  1. 现有eHMI研究依赖预定义文本和手动设计动作,难以适应动态场景,限制了实际部署。
  2. 利用LLM的通用性,构建LLM驱动的eHMI动作自动设计流程,提升eHMI的适应性。
  3. 实验表明,LLM能将消息转化为接近人类水平的动作,VLM评分器与人类偏好具有一致性。

📝 摘要(中文)

自动驾驶车辆(AVs)与道路使用者之间缺乏明确的沟通渠道,需要在不确定的场景中使用外部人机界面(eHMIs)来有效传递信息。目前,大多数eHMI研究采用预定义的文本消息和手动设计的动作来执行这些消息,这限制了eHMI的实际部署,而动态场景中的适应性至关重要。鉴于大型语言模型(LLMs)的通用性和多功能性,它们有可能作为消息-动作设计任务的自动动作设计者。为了验证这个想法,我们做出了三个贡献:(1)我们提出了一个集成LLM和3D渲染器的流程,使用LLM作为动作设计者来生成可执行的动作以控制eHMI并渲染动作片段。(2)我们收集了一个用户评分的动作设计评分数据集,该数据集总共包含320个动作序列,用于八个预期的消息和四个代表性的eHMI模态。该数据集验证了LLM可以将预期的消息转换为接近人类水平的动作,特别是对于具有推理能力的LLM。(3)我们引入了两个自动评分器,动作参考分数(ARS)和视觉-语言模型(VLMs),以评估18个LLM,发现VLM与人类偏好一致,但在eHMI模态之间存在差异。

🔬 方法详解

问题定义:论文旨在解决自动驾驶车辆与道路使用者沟通中,现有eHMI设计方法缺乏适应性的问题。当前方法依赖于预定义的文本消息和手动设计的动作,无法有效应对复杂多变的交通场景,限制了eHMI的实际应用。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大生成和推理能力,将LLM作为自动动作设计者,自动生成eHMI的动作序列。这种方法旨在提高eHMI在动态场景中的适应性,并降低人工设计的成本。

技术框架:论文提出的技术框架包含以下几个主要模块:1) LLM动作设计模块:接收预期的消息作为输入,利用LLM生成相应的eHMI动作序列。2) 3D渲染模块:将LLM生成的动作序列渲染成可视化的动作片段。3) 动作设计评分数据集:收集用户对不同LLM生成的动作序列的评分,用于评估LLM的性能。4) 自动评分器:引入动作参考分数(ARS)和视觉-语言模型(VLMs)作为自动评分器,用于快速评估LLM生成的动作序列。

关键创新:论文的关键创新在于将LLM应用于eHMI动作设计,实现动作序列的自动生成。与传统的手动设计方法相比,该方法能够显著提高eHMI的适应性和效率。此外,论文还提出了两种自动评分器(ARS和VLM),用于快速评估LLM生成的动作序列,降低了人工评估的成本。

关键设计:论文的关键设计包括:1) LLM的选择和提示工程:选择合适的LLM,并通过精心设计的提示语引导LLM生成符合要求的动作序列。2) 动作序列的表示:设计一种有效的动作序列表示方法,以便LLM能够生成可执行的动作。3) 自动评分器的设计:设计ARS和VLM两种自动评分器,其中ARS基于动作参考,VLM则利用视觉信息进行评估。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM能够将预期的消息转换为接近人类水平的动作,尤其是在具有推理能力的LLM上表现更佳。此外,VLM评分器与人类偏好具有较高的一致性,可以作为一种有效的自动评估工具。论文评估了18个LLM,并发现VLM在不同eHMI模态下的表现存在差异。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的eHMI设计,提升车辆与行人、骑行者等道路使用者的沟通效率和安全性。通过自动生成适应性强的eHMI动作,有望加速自动驾驶技术的实际部署,并提升用户体验。未来,该方法还可扩展到其他需要人机交互的领域,如机器人、智能家居等。

📄 摘要(原文)

The absence of explicit communication channels between automated vehicles (AVs) and other road users requires the use of external Human-Machine Interfaces (eHMIs) to convey messages effectively in uncertain scenarios. Currently, most eHMI studies employ predefined text messages and manually designed actions to perform these messages, which limits the real-world deployment of eHMIs, where adaptability in dynamic scenarios is essential. Given the generalizability and versatility of large language models (LLMs), they could potentially serve as automated action designers for the message-action design task. To validate this idea, we make three contributions: (1) We propose a pipeline that integrates LLMs and 3D renderers, using LLMs as action designers to generate executable actions for controlling eHMIs and rendering action clips. (2) We collect a user-rated Action-Design Scoring dataset comprising a total of 320 action sequences for eight intended messages and four representative eHMI modalities. The dataset validates that LLMs can translate intended messages into actions close to a human level, particularly for reasoning-enabled LLMs. (3) We introduce two automated raters, Action Reference Score (ARS) and Vision-Language Models (VLMs), to benchmark 18 LLMs, finding that the VLM aligns with human preferences yet varies across eHMI modalities.