Perspective-Aware AI in Extended Reality

📄 arXiv: 2507.11479v1 📥 PDF

作者: Daniel Platnick, Matti Gruener, Marjan Alirezaie, Kent Larson, Dava J. Newman, Hossein Rahnama

分类: cs.AI, cs.GR, cs.HC

发布日期: 2025-05-05

备注: Accepted to the International Conference on eXtended Reality (2025), 12 pages, 3 figures


💡 一句话要点

提出PAiR框架以解决XR中用户建模不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 增强现实 人工智能 用户建模 视角感知 多模态融合 沉浸式体验 人机交互

📋 核心要点

  1. 现有的增强现实系统在用户建模和认知上下文方面存在不足,导致沉浸式体验的局限性。
  2. 本文提出的PAiR框架通过整合视角感知AI与XR,旨在提供基于用户身份的上下文感知体验。
  3. 通过在OpenDome引擎中实现的概念验证场景,PAiR展示了其在动态用户状态与沉浸环境连接方面的有效性。

📝 摘要(中文)

增强现实(XR)中的人工智能(AI)旨在提供自适应和沉浸式体验,但现有系统由于用户建模浅显和认知上下文有限而未能实现这一目标。本文介绍了“视角感知AI在扩展现实中的应用”(PAiR),这是一个将视角感知AI(PAi)与XR集成的基础框架,旨在实现基于用户身份的可解释和上下文感知体验。PAi基于Chronicles构建,这是一种从多模态数字足迹中学习的推理准备身份模型,捕捉用户的认知和体验演变。PAiR在一个闭环系统中使用这些模型,将动态用户状态与沉浸式环境连接起来。我们展示了PAiR的架构,详细描述了其模块和系统流程,并通过在基于Unity的OpenDome引擎中实现的两个概念验证场景展示了其效用。PAiR为人机交互开辟了新的方向,将基于视角的身份模型嵌入沉浸式系统中。

🔬 方法详解

问题定义:本文旨在解决现有增强现实系统中用户建模不足和认知上下文有限的问题,导致用户体验不够沉浸和个性化。

核心思路:PAiR框架通过引入视角感知AI,利用从多模态数字足迹中学习的身份模型,提供可解释和上下文感知的用户体验。

技术框架:PAiR的整体架构包括多个模块,首先是Chronicles身份模型的构建,然后是动态用户状态的捕捉,最后将这些状态与沉浸式环境进行闭环连接。

关键创新:PAiR的核心创新在于将视角感知的身份模型嵌入XR系统中,使得系统能够根据用户的认知和体验演变进行实时调整,显著提升了用户体验的个性化和沉浸感。

关键设计:在设计上,PAiR使用了多模态数据融合技术,结合用户的历史行为和实时反馈,采用特定的损失函数来优化身份模型的学习过程。

📊 实验亮点

在两个概念验证场景中,PAiR展示了其在动态用户状态与沉浸环境连接方面的有效性,显著提高了用户体验的个性化程度。具体性能数据尚未披露,但初步结果表明PAiR在用户满意度和沉浸感方面有显著提升。

🎯 应用场景

PAiR框架具有广泛的应用潜力,尤其在教育、娱乐和虚拟社交等领域。通过提供个性化的沉浸式体验,PAiR可以显著提升用户的参与感和满意度,推动XR技术的进一步发展与应用。

📄 摘要(原文)

AI-enhanced Extended Reality (XR) aims to deliver adaptive, immersive experiences-yet current systems fall short due to shallow user modeling and limited cognitive context. We introduce Perspective-Aware AI in Extended Reality (PAiR), a foundational framework for integrating Perspective-Aware AI (PAi) with XR to enable interpretable, context-aware experiences grounded in user identity. PAi is built on Chronicles: reasoning-ready identity models learned from multimodal digital footprints that capture users' cognitive and experiential evolution. PAiR employs these models in a closed-loop system linking dynamic user states with immersive environments. We present PAiR's architecture, detailing its modules and system flow, and demonstrate its utility through two proof-of-concept scenarios implemented in the Unity-based OpenDome engine. PAiR opens a new direction for human-AI interaction by embedding perspective-based identity models into immersive systems.