Explainable XR: Understanding User Behaviors of XR Environments using LLM-assisted Analytics Framework

📄 arXiv: 2501.13778v2 📥 PDF

作者: Yoonsang Kim, Zainab Aamir, Mithilesh Singh, Saeed Boorboor, Klaus Mueller, Arie E. Kaufman

分类: cs.HC, cs.CL

发布日期: 2025-01-23 (更新: 2025-03-10)

备注: 11 pages, 8 figures. This is the author's version of the article that has been accepted for publication in IEEE Transactions on Visualization and Computer Graphics

DOI: 10.1109/TVCG.2025.3549537


💡 一句话要点

提出Explainable XR框架,利用LLM辅助分析XR环境中的用户行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩展现实 用户行为分析 大型语言模型 多模态数据 虚拟环境 人机交互 可视化分析

📋 核心要点

  1. 现有XR用户分析框架难以处理跨虚拟性、多用户协作和多模态数据等复杂场景。
  2. Explainable XR提出一种虚拟性无关的框架,利用LLM辅助分析用户行为,提供定制化见解。
  3. 通过多个用例和用户研究,验证了Explainable XR在理解用户行为和提供可操作见解方面的有效性。

📝 摘要(中文)

本文提出Explainable XR,一个端到端的框架,旨在通过利用大型语言模型(LLM)辅助数据解释,来分析各种扩展现实(XR)环境中的用户行为。现有的XR用户分析框架在处理跨虚拟性(AR、VR、MR)转换、多用户协作应用场景以及多模态数据的复杂性方面面临挑战。Explainable XR通过提供一种与虚拟性无关的解决方案来应对这些挑战,该方案能够收集、分析和可视化沉浸式会话。该框架包含三个主要组成部分:(1)一种新颖的用户数据记录模式,称为用户行为描述符(UAD),可以捕获用户的多模态行为,以及他们的意图和上下文;(2)一个平台无关的XR会话记录器;(3)一个可视化分析界面,提供由LLM辅助的、针对分析师视角的定制化见解,从而促进对记录的XR会话数据的探索和分析。通过在跨虚拟性的个体和协作XR应用中展示五个用例场景,证明了Explainable XR的多功能性。技术评估和用户研究表明,Explainable XR提供了一个高度可用的分析解决方案,用于理解用户行为,并为沉浸式环境中用户行为提供多方面的、可操作的见解。

🔬 方法详解

问题定义:现有XR用户行为分析方法难以有效处理跨越不同虚拟环境(AR、VR、MR)的复杂交互,尤其是在多用户协作场景下,对多模态数据的整合和理解存在挑战。这些方法通常缺乏对用户意图和上下文的深入理解,导致分析结果不够精细和可解释。

核心思路:Explainable XR的核心思路是利用大型语言模型(LLM)的强大语义理解和推理能力,辅助分析XR环境中的用户行为数据。通过将用户的多模态行为数据与LLM相结合,可以更准确地推断用户的意图和上下文,从而提供更深入、更可解释的分析结果。这种设计旨在弥合原始数据与用户行为理解之间的差距。

技术框架:Explainable XR框架包含三个主要模块:1) 用户行为描述符(UAD):定义了一种新的数据记录模式,用于捕获用户的多模态行为、意图和上下文信息。2) 平台无关的XR会话记录器:负责收集XR会话中的用户数据,并将其转换为UAD格式。3) 可视化分析界面:提供基于LLM辅助的分析工具,允许分析师探索和理解记录的XR会话数据。该界面根据分析师的视角定制见解,并提供可操作的建议。

关键创新:Explainable XR的关键创新在于将LLM集成到XR用户行为分析流程中,从而实现对用户意图和上下文的更深入理解。与传统方法相比,Explainable XR能够处理更复杂的多模态数据,并提供更具可解释性的分析结果。UAD的设计也是一个创新点,它提供了一种标准化的方式来表示用户的行为和意图。

关键设计:UAD的设计需要仔细考虑如何有效地表示用户的多模态行为数据,包括用户的动作、语音、视线等。LLM的选择和训练也至关重要,需要选择适合处理XR用户行为数据的LLM,并对其进行微调,以提高其在特定任务上的性能。可视化分析界面的设计需要考虑如何有效地呈现分析结果,并允许分析师进行交互式探索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过五个用例场景展示了Explainable XR的多功能性,涵盖个体和协作XR应用。用户研究表明,Explainable XR提供了一个高度可用的分析解决方案,能够有效理解用户行为,并提供多方面的、可操作的见解。具体的性能数据和对比基线在摘要中未明确提及,属于未知信息。

🎯 应用场景

Explainable XR可应用于各种XR应用场景,例如远程协作、教育培训、游戏设计和医疗康复。通过理解用户在XR环境中的行为模式,可以优化应用设计、改进用户体验、提高培训效率和个性化康复方案。该研究的潜在价值在于提升XR应用的可用性和有效性,并为未来的XR技术发展提供指导。

📄 摘要(原文)

We present Explainable XR, an end-to-end framework for analyzing user behavior in diverse eXtended Reality (XR) environments by leveraging Large Language Models (LLMs) for data interpretation assistance. Existing XR user analytics frameworks face challenges in handling cross-virtuality - AR, VR, MR - transitions, multi-user collaborative application scenarios, and the complexity of multimodal data. Explainable XR addresses these challenges by providing a virtuality-agnostic solution for the collection, analysis, and visualization of immersive sessions. We propose three main components in our framework: (1) A novel user data recording schema, called User Action Descriptor (UAD), that can capture the users' multimodal actions, along with their intents and the contexts; (2) a platform-agnostic XR session recorder, and (3) a visual analytics interface that offers LLM-assisted insights tailored to the analysts' perspectives, facilitating the exploration and analysis of the recorded XR session data. We demonstrate the versatility of Explainable XR by demonstrating five use-case scenarios, in both individual and collaborative XR applications across virtualities. Our technical evaluation and user studies show that Explainable XR provides a highly usable analytics solution for understanding user actions and delivering multifaceted, actionable insights into user behaviors in immersive environments.