Beyond Empirical Windowing: An Attention-Based Approach for Trust Prediction in Autonomous Vehicles
作者: Minxue Niu, Zhaobo Zheng, Kumar Akash, Teruhisa Misu
分类: cs.HC, cs.LG
发布日期: 2023-12-15 (更新: 2024-01-16)
💡 一句话要点
提出基于注意力机制的选择性窗口网络SWAN,用于自动驾驶中的信任预测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 信任预测 人机交互 注意力机制 时间序列分析 窗口选择 多模态融合
📋 核心要点
- 现有方法依赖人工窗口选择,对窗口大小敏感,且需要大量领域知识和搜索。
- SWAN通过窗口提示和掩码注意力,自动选择关键时间间隔,实现灵活长度的关注。
- 实验表明,SWAN在信任预测任务上显著优于现有基线,且对窗口大小具有鲁棒性。
📝 摘要(中文)
人类的内在状态在人机交互中起着关键作用,这促使人类状态估计成为一个重要的研究领域。与诸如惊讶和恼怒等快速状态变化相比,建模诸如信任和满意度等渐进状态更具挑战性,因为标签稀疏性问题:长时间序列信号通常与单个标签相关联,这使得识别状态转变的关键跨度变得困难。窗口化是一种广泛使用的技术,可以对长时间序列数据进行局部分析。然而,下游模型的性能可能对窗口大小敏感,并且确定最佳窗口大小需要领域专业知识和广泛的搜索。为了解决这个挑战,我们提出了一种选择性窗口注意力网络(SWAN),它采用窗口提示和掩码注意力转换来实现对具有灵活长度的关注间隔的选择。我们在一个新的多模态驾驶模拟数据集上评估了SWAN在信任预测任务上的性能。实验表明,SWAN显著优于现有的经验窗口选择基线以及包括CNN-LSTM和Transformer在内的神经网络基线。此外,与传统的窗口化方法相比,它在很宽的窗口范围内表现出鲁棒性。
🔬 方法详解
问题定义:论文旨在解决自动驾驶场景中,基于长时间序列数据进行信任预测时,由于标签稀疏性和状态渐变性,导致难以确定关键时间窗口的问题。传统方法依赖人工经验选择窗口大小,下游模型性能对窗口大小非常敏感,且需要大量的领域知识和手动搜索,效率低下。
核心思路:论文的核心思路是利用注意力机制自动选择与信任状态相关的关键时间窗口。通过引入窗口提示(Window Prompts)引导模型关注不同长度的时间间隔,并使用掩码注意力(Masked Attention)机制来学习不同窗口之间的依赖关系,从而实现对关键时间窗口的自适应选择。
技术框架:SWAN (Selective Windowing Attention Network) 的整体框架包含以下几个主要模块:1) 输入嵌入层:将多模态输入数据(例如,驾驶行为、环境信息等)嵌入到高维空间。2) 窗口提示生成:生成一系列窗口提示,每个提示对应一个特定的时间窗口长度。3) 掩码注意力转换:使用掩码注意力机制,根据窗口提示选择相关的输入特征,并学习不同窗口之间的依赖关系。4) 信任预测层:基于选择的特征进行信任预测。
关键创新:SWAN 的关键创新在于其选择性窗口机制,它能够自动学习并选择与信任状态相关的关键时间窗口,而无需人工干预。与传统的固定窗口方法相比,SWAN 能够更好地捕捉状态转变的关键跨度,从而提高信任预测的准确性。此外,SWAN 的掩码注意力机制能够学习不同窗口之间的依赖关系,进一步提升了模型的性能。
关键设计:窗口提示的设计是关键。论文中窗口提示是一组可学习的向量,每个向量对应一个特定的窗口大小。掩码注意力机制通过计算窗口提示与输入特征之间的相似度,来确定每个窗口的重要性。损失函数包括信任预测的交叉熵损失和正则化项,用于防止过拟合。网络结构采用多层 Transformer 结构,以增强模型的表达能力。
📊 实验亮点
实验结果表明,SWAN 在信任预测任务上显著优于现有的经验窗口选择基线以及 CNN-LSTM 和 Transformer 等神经网络基线。具体而言,SWAN 在准确率和 F1 值等指标上均取得了显著提升,并且在不同窗口大小范围内表现出更强的鲁棒性。例如,在特定数据集上,SWAN 的 F1 值比最佳基线提高了 5% 以上。
🎯 应用场景
该研究成果可应用于自动驾驶汽车的人机交互系统,提升驾驶员对自动驾驶系统的信任感和接受度。通过准确预测驾驶员的信任状态,系统可以及时调整驾驶策略,例如在驾驶员感到不信任时,主动提供更多信息或切换到人工驾驶模式,从而提高驾驶安全性。
📄 摘要(原文)
Humans' internal states play a key role in human-machine interaction, leading to the rise of human state estimation as a prominent field. Compared to swift state changes such as surprise and irritation, modeling gradual states like trust and satisfaction are further challenged by label sparsity: long time-series signals are usually associated with a single label, making it difficult to identify the critical span of state shifts. Windowing has been one widely-used technique to enable localized analysis of long time-series data. However, the performance of downstream models can be sensitive to the window size, and determining the optimal window size demands domain expertise and extensive search. To address this challenge, we propose a Selective Windowing Attention Network (SWAN), which employs window prompts and masked attention transformation to enable the selection of attended intervals with flexible lengths. We evaluate SWAN on the task of trust prediction on a new multimodal driving simulation dataset. Experiments show that SWAN significantly outperforms an existing empirical window selection baseline and neural network baselines including CNN-LSTM and Transformer. Furthermore, it shows robustness across a wide span of windowing ranges, compared to the traditional windowing approach.