ClickAIXR: On-Device Multimodal Vision-Language Interaction with Real-World Objects in Extended Reality

作者: Dawar Khan, Alexandre Kouyoumdjian, Xinyu Liu, Omar Mena, Dominik Engel, Ivan Viola

分类: cs.CV, cs.GR, cs.HC

发布日期: 2026-04-07

💡 一句话要点

ClickAIXR：一种在扩展现实中与真实世界对象进行设备端多模态视觉-语言交互的框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩展现实 视觉-语言模型 设备端推理 人机交互 对象选择

📋 核心要点

现有XR交互方法依赖云端AI或注视点选择，存在隐私泄露风险和交互不精确的问题。
ClickAIXR通过设备端视觉-语言模型和控制器点击选择，实现精确、隐私保护的对象交互。
用户研究表明，ClickAIXR延迟可接受，用户体验良好，验证了其在XR交互中的潜力。

📝 摘要（中文）

本文提出ClickAIXR，一种新颖的设备端框架，用于在扩展现实(XR)中与对象进行多模态视觉-语言交互。与依赖于云端AI（如ChatGPT）或基于注视点选择（如GazePointAR）的现有系统不同，ClickAIXR集成了设备端的视觉-语言模型(VLM)与基于控制器的对象选择范式，使用户能够在XR中精确点击真实世界中的对象。一旦被选中，对象图像将由VLM在本地处理，以通过文本和语音回答自然语言问题。这种以对象为中心的交互减少了仅基于注视或语音的界面中固有的歧义，并通过在设备上执行所有推理来提高透明度，从而解决了对隐私和延迟的担忧。我们在Magic Leap SDK (C API)中使用基于ONNX的本地VLM推理实现了ClickAIXR。我们进行了一项用户研究，将ClickAIXR与Gemini 2.5 Flash和ChatGPT 5进行了比较，评估了可用性、信任度和用户满意度。结果表明，延迟适中，用户体验可以接受。我们的研究结果表明，基于点击的对象选择与设备端AI相结合，具有推进可信赖、保护隐私的XR交互的潜力。源代码和补充材料可在以下网址获得：this http URL

🔬 方法详解

问题定义：现有XR系统中，基于云端的AI交互存在隐私泄露的风险，而基于注视点的交互方式精度较低，容易产生歧义。用户难以精确地与XR环境中的特定对象进行交互，并且对交互过程的透明度和可信度存在担忧。

核心思路：ClickAIXR的核心思路是将视觉-语言模型部署在设备端，结合控制器点击选择对象的方式，实现精确、低延迟且隐私保护的XR交互。通过本地推理，避免了数据上传云端带来的隐私问题，同时点击选择方式提高了对象选择的准确性。

技术框架：ClickAIXR框架主要包含以下几个模块：1) 控制器输入模块：负责接收用户通过控制器发出的点击指令；2) 对象选择模块：根据点击指令确定用户选择的真实世界对象；3) 设备端视觉-语言模型(VLM)：对选定对象的图像进行分析，理解用户的自然语言问题，并生成相应的文本或语音回复；4) 输出模块：将VLM的回复以文本或语音的形式呈现给用户。整个流程都在设备端完成，无需连接云端服务器。

关键创新：ClickAIXR的关键创新在于将视觉-语言模型部署在设备端，并结合控制器点击选择的方式。这种结合既保证了交互的精确性，又避免了隐私泄露的风险。此外，完全在设备端进行推理，降低了延迟，提高了用户体验。

关键设计：ClickAIXR使用Magic Leap SDK (C API)进行开发，并采用ONNX格式进行本地VLM推理。具体的VLM模型选择和训练细节在论文中未详细说明，但强调了模型需要在设备端高效运行。控制器点击选择的具体实现方式也未详细描述，但可以推测是利用Magic Leap SDK提供的相关接口。

🖼️ 关键图片

📊 实验亮点

用户研究表明，ClickAIXR在可用性、信任度和用户满意度方面表现良好。与Gemini 2.5 Flash和ChatGPT 5相比，ClickAIXR在隐私保护方面具有显著优势，并且延迟适中，用户体验可以接受。这些结果验证了ClickAIXR在XR交互中的潜力。

🎯 应用场景

ClickAIXR可应用于各种XR场景，例如远程协作、教育培训、游戏娱乐等。在远程协作中，用户可以精确地选择共享场景中的特定对象进行讨论。在教育培训中，学生可以通过提问了解虚拟环境中的物体信息。在游戏娱乐中，玩家可以与虚拟角色进行更自然、更智能的交互。该研究有助于推动XR技术在各领域的应用，并提升用户体验。

📄 摘要（原文）

We present ClickAIXR, a novel on-device framework for multimodal vision-language interaction with objects in extended reality (XR). Unlike prior systems that rely on cloud-based AI (e.g., ChatGPT) or gaze-based selection (e.g., GazePointAR), ClickAIXR integrates an on-device vision-language model (VLM) with a controller-based object selection paradigm, enabling users to precisely click on real-world objects in XR. Once selected, the object image is processed locally by the VLM to answer natural language questions through both text and speech. This object-centered interaction reduces ambiguity inherent in gaze- or voice-only interfaces and improves transparency by performing all inference on-device, addressing concerns around privacy and latency. We implemented ClickAIXR in the Magic Leap SDK (C API) with ONNX-based local VLM inference. We conducted a user study comparing ClickAIXR with Gemini 2.5 Flash and ChatGPT 5, evaluating usability, trust, and user satisfaction. Results show that latency is moderate and user experience is acceptable. Our findings demonstrate the potential of click-based object selection combined with on-device AI to advance trustworthy, privacy-preserving XR interactions. The source code and supplementary materials are available at:this http URL

ClickAIXR: On-Device Multimodal Vision-Language Interaction with Real-World Objects in Extended Reality

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理