Tokenization of Gaze Data

📄 arXiv: 2503.22145v1 📥 PDF

作者: Tim Rolff, Jurik Karimian, Niklas Hypki, Susanne Schmidt, Markus Lappe, Frank Steinicke

分类: cs.LG, cs.CL, cs.CV, cs.HC

发布日期: 2025-03-28


💡 一句话要点

针对眼动数据,提出五种tokenization策略,用于LLM的眼动预测与生成任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼动数据 Tokenization 大型语言模型 眼动预测 眼动生成

📋 核心要点

  1. 现有大型语言模型在文本和视觉数据上tokenization策略研究充分,但眼动数据tokenization方法缺乏。
  2. 本文提出五种眼动数据tokenization策略,旨在利用预训练MLLM的视觉能力处理眼动数据,例如通过微调。
  3. 实验表明,quantile tokenizer在眼动位置预测上表现最佳,而k-means在眼动速度预测上效果最好。

📝 摘要(中文)

当前大型语言模型(LLM)和多模态大型语言模型(MLLM)的性能在很大程度上取决于其tokenization策略。虽然文本和视觉输入的tokenization方法已被广泛研究,但由于眼动数据的特殊性,针对眼动数据的tokenization策略研究尚属空白。本文旨在填补这一研究空白,通过在三个不同的数据集上分析五种不同的眼动数据tokenizers,用于通过LLM进行眼动数据的预测和生成。我们评估了这些tokenizers的重建和压缩能力。此外,我们针对每种tokenization策略训练了一个LLM,并测量了其生成和预测性能。总体而言,我们发现quantile tokenizer在预测眼动位置方面优于所有其他tokenizer,而k-means在预测眼动速度方面表现最佳。

🔬 方法详解

问题定义:论文旨在解决眼动数据tokenization的问题,以便能够利用大型语言模型(LLM)和多模态大型语言模型(MLLM)处理和分析眼动数据。现有方法主要集中在文本和视觉数据的tokenization,缺乏针对眼动数据的有效方法,这限制了LLM在眼动数据分析和预测方面的应用。

核心思路:论文的核心思路是将眼动数据转换为LLM可以处理的token序列。通过设计不同的tokenization策略,将连续的眼动数据(例如,眼动位置和速度)离散化为token,从而使LLM能够学习眼动数据的模式并进行预测和生成。

技术框架:整体框架包括以下几个主要步骤:1)选择或设计tokenization策略(例如,quantile, k-means等);2)使用选定的tokenization策略将眼动数据转换为token序列;3)使用token序列训练LLM;4)评估LLM在眼动数据预测和生成任务上的性能。

关键创新:论文的关键创新在于首次探索了眼动数据的tokenization策略,并评估了不同tokenization方法在眼动数据预测和生成任务中的性能。这为利用LLM处理眼动数据开辟了新的途径。

关键设计:论文中使用了五种不同的tokenization策略,包括quantile tokenizer和k-means tokenizer。Quantile tokenizer将数据划分为具有相同数量样本的桶,而k-means tokenizer使用k-means聚类算法将数据划分为不同的簇。此外,论文还使用了LLM进行眼动数据预测和生成,并评估了不同tokenization策略对LLM性能的影响。具体的参数设置和网络结构在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的tokenization策略在不同的眼动数据预测任务中表现不同。Quantile tokenizer在预测眼动位置方面表现最佳,而k-means tokenizer在预测眼动速度方面表现最佳。这表明选择合适的tokenization策略对于提高LLM在眼动数据分析任务中的性能至关重要。具体的性能提升幅度未知。

🎯 应用场景

该研究成果可应用于眼动追踪分析、人机交互、虚拟现实等领域。通过将眼动数据转化为LLM可理解的token,可以利用LLM强大的建模能力进行眼动行为预测、异常检测和用户意图推断,从而提升用户体验和系统智能化水平。未来,该方法还可用于辅助诊断眼科疾病或神经系统疾病。

📄 摘要(原文)

A considerable part of the performance of today's large language models (LLM's) and multimodal large language models (MLLM's) depends on their tokenization strategies. While tokenizers are extensively researched for textual and visual input, there is no research on tokenization strategies for gaze data due to its nature. However, a corresponding tokenization strategy would allow using the vision capabilities of pre-trained MLLM's for gaze data, for example, through fine-tuning. In this paper, we aim to close this research gap by analyzing five different tokenizers for gaze data on three different datasets for the forecasting and generation of gaze data through LLMs (cf.~\cref{fig:teaser}). We evaluate the tokenizers regarding their reconstruction and compression abilities. Further, we train an LLM for each tokenization strategy, measuring its generative and predictive performance. Overall, we found that a quantile tokenizer outperforms all others in predicting the gaze positions and k-means is best when predicting gaze velocities.