AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results

📄 arXiv: 2502.15761v2 📥 PDF

作者: Dawar Khan, Xinyu Liu, Omar Mena, Donggang Jia, Alexandre Kouyoumdjian, Ivan Viola

分类: cs.DC, cs.AI, cs.GR, cs.HC

发布日期: 2025-02-13 (更新: 2025-07-18)

备注: AIvaluateXR is updated version of LoXR


💡 一句话要点

AIvaluateXR:用于XR设备端AI的评估框架与基准测试

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: XR设备 大型语言模型 设备端AI 性能评估 基准测试

📋 核心要点

  1. 现有方法难以针对特定任务选择合适的XR设备和模型进行设备端LLM推理。
  2. AIvaluateXR框架通过系统评估LLM在不同XR设备上的性能,为模型和设备选择提供指导。
  3. 实验在四个XR平台上评估了17个LLM,并分析了性能、速度、内存和电池消耗等关键指标。

📝 摘要(中文)

本文提出了AIvaluateXR,一个全面的评估框架,用于对在扩展现实(XR)设备上运行的大型语言模型(LLM)进行基准测试。为了演示该框架,我们在四个XR平台(Magic Leap 2、Meta Quest 3、Vivo X100s Pro和Apple Vision Pro)上部署了17个选定的LLM,并进行了广泛的评估。实验测量了四个关键指标:性能一致性、处理速度、内存使用和电池消耗。针对68个模型-设备对,我们评估了在不同字符串长度、批大小和线程数下的性能,分析了实时XR应用的权衡。我们提出了一种基于3D Pareto最优性理论的统一评估方法,以从质量和速度目标中选择最佳设备-模型对。此外,我们将设备端LLM的效率与客户端-服务器和基于云的设置进行了比较,并评估了它们在两个交互式任务上的准确性。我们相信我们的发现为指导未来LLM在XR设备上部署的优化工作提供了有价值的见解。我们的评估方法可以作为该新兴领域进一步研究和开发的标准基础。

🔬 方法详解

问题定义:在扩展现实(XR)设备上部署大型语言模型(LLM)面临着选择合适模型和设备的挑战。现有方法缺乏一个系统性的评估框架,难以针对特定任务选择最佳的设备-模型组合,并且缺乏对性能一致性、处理速度、内存使用和电池消耗等关键指标的综合考量。

核心思路:AIvaluateXR的核心思路是构建一个全面的评估框架,通过在不同的XR设备上运行多个LLM,并测量其性能指标,从而为开发者提供选择最佳设备-模型组合的依据。该框架采用3D Pareto最优性理论,综合考虑质量和速度目标,从而实现最优选择。

技术框架:AIvaluateXR框架包含以下主要模块:1) 模型部署模块:将选定的LLM部署到不同的XR设备上。2) 性能测量模块:测量LLM在不同设备上的性能指标,包括性能一致性、处理速度、内存使用和电池消耗。3) 评估分析模块:基于测量数据,分析不同设备-模型组合的性能,并使用3D Pareto最优性理论选择最佳组合。4) 对比实验模块:将设备端LLM与客户端-服务器和基于云的设置进行比较,并评估其在交互式任务上的准确性。

关键创新:AIvaluateXR的关键创新在于:1) 提出了一个全面的评估框架,可以系统地评估LLM在不同XR设备上的性能。2) 采用3D Pareto最优性理论,综合考虑质量和速度目标,从而实现最优设备-模型选择。3) 提供了详细的实验数据和分析,为开发者选择合适的设备和模型提供了有价值的参考。

关键设计:在实验中,选择了17个LLM和四个XR平台(Magic Leap 2、Meta Quest 3、Vivo X100s Pro和Apple Vision Pro)。针对每个设备-模型对,评估了在不同字符串长度、批大小和线程数下的性能。性能指标包括性能一致性(通过多次运行取平均值)、处理速度(每秒处理的token数)、内存使用(峰值内存占用)和电池消耗(运行特定时间后的电量消耗)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的设备-模型组合在性能、速度、内存和电池消耗方面存在显著差异。通过3D Pareto最优性分析,可以找到在质量和速度之间取得最佳平衡的设备-模型组合。例如,某些设备在处理长文本时表现更好,而另一些设备在处理小批量数据时更有效率。此外,设备端LLM在某些交互式任务上的准确性与客户端-服务器和基于云的设置相当,但具有更低的延迟。

🎯 应用场景

AIvaluateXR框架可应用于XR设备上的各种AI应用,例如虚拟助手、智能交互、实时翻译等。通过选择最佳的设备-模型组合,可以提高XR应用的性能和用户体验。该框架还可以用于指导未来LLM在XR设备上的优化工作,推动XR技术的发展。

📄 摘要(原文)

The deployment of large language models (LLMs) on extended reality (XR) devices has great potential to advance the field of human-AI interaction. In the case of direct, on-device model inference, selecting the appropriate model and device for specific tasks remains challenging. In this paper, we present AIvaluateXR, a comprehensive evaluation framework for benchmarking LLMs running on XR devices. To demonstrate the framework, we deploy 17 selected LLMs across four XR platforms: Magic Leap 2, Meta Quest 3, Vivo X100s Pro, and Apple Vision Pro, and conduct an extensive evaluation. Our experimental setup measures four key metrics: performance consistency, processing speed, memory usage, and battery consumption. For each of the 68 model-device pairs, we assess performance under varying string lengths, batch sizes, and thread counts, analyzing the trade-offs for real-time XR applications. We propose a unified evaluation method based on the 3D Pareto Optimality theory to select the optimal device-model pairs from quality and speed objectives. Additionally, we compare the efficiency of on-device LLMs with client-server and cloud-based setups, and evaluate their accuracy on two interactive tasks. We believe our findings offer valuable insight to guide future optimization efforts for LLM deployment on XR devices. Our evaluation method can be used as standard groundwork for further research and development in this emerging field. The source code and supplementary materials are available at: www.nanovis.org/AIvaluateXR.html