VisionClaw: Always-On AI Agents through Smart Glasses

作者: Xiaoan Liu, DaeHo Lee, Eric J Gonzalez, Mar Gonzalez-Franco, Ryo Suzuki

分类: cs.HC, cs.AI, cs.CV, cs.LG, cs.MA

发布日期: 2026-04-07

💡 一句话要点

VisionClaw：通过智能眼镜实现常时在线的AI Agent

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 智能眼镜 可穿戴设备 AI Agent 常时在线感知 语音交互

📋 核心要点

现有可穿戴设备交互受限于手动操作和非实时感知，导致任务执行效率低下。
VisionClaw通过智能眼镜实现常时在线的感知和Agent任务执行，支持语音驱动的任务委派。
实验表明，VisionClaw能加速任务完成，减少交互开销，并促使交互方式向机会主义和委派转变。

📝 摘要（中文）

本文提出了VisionClaw，一个常时在线的可穿戴AI Agent，它集成了第一人称视角的实时感知和Agent的任务执行能力。VisionClaw运行在Meta Ray-Ban智能眼镜上，持续感知真实世界的上下文，并通过OpenClaw AI Agent实现语音驱动的现场任务启动和委派。因此，用户可以直接通过智能眼镜执行任务，例如将真实世界的物体添加到亚马逊购物车、从物理文档生成笔记、随时接收会议简报、从海报创建活动或控制物联网设备。我们通过一项受控的实验室研究（N=12）和一项纵向部署研究（N=5）评估了VisionClaw。结果表明，与非常时在线和非Agent的基线相比，集成感知和执行能够更快地完成任务并减少交互开销。除了性能提升之外，部署结果还揭示了交互方式的转变：任务在正在进行的活动中伺机启动，并且执行越来越多地被委派而不是手动控制。这些结果表明了一种新的可穿戴AI Agent范式，其中感知和行动持续耦合以支持情境化的免提交互。

🔬 方法详解

问题定义：现有可穿戴设备在执行任务时，往往需要用户手动触发和控制，无法充分利用设备持续感知的潜力。此外，缺乏智能Agent的辅助，使得任务执行效率较低，用户交互负担较重。例如，用户需要手动拍照、上传、识别，才能将一个真实世界的物体添加到购物车，过程繁琐耗时。

核心思路：VisionClaw的核心思路是将第一人称视角的实时感知与智能Agent的任务执行能力相结合，实现常时在线的AI Agent。通过智能眼镜持续感知周围环境，并利用语音指令触发Agent执行任务，从而解放用户的双手，提高任务执行效率。这种设计旨在实现情境化的免提交互，让用户能够更加自然地与AI Agent进行协作。

技术框架：VisionClaw的整体架构包含以下几个主要模块：1) 智能眼镜：负责实时采集第一人称视角的图像和音频数据。2) 感知模块：对采集到的数据进行处理，识别场景中的物体、文本等信息。3) Agent模块：根据用户的语音指令和感知模块的输出，执行相应的任务，例如添加商品到购物车、生成笔记等。4) 交互模块：负责与用户进行语音交互，接收指令并反馈任务执行结果。整个流程是持续循环的，智能眼镜不断感知环境，用户随时可以通过语音指令触发Agent执行任务。

关键创新：VisionClaw最重要的技术创新点在于将常时在线的感知与Agent的任务执行能力相结合，实现了情境化的免提交互。与传统的可穿戴设备相比，VisionClaw无需用户手动触发，而是能够根据环境变化和用户指令自动执行任务。此外，VisionClaw还采用了OpenClaw AI Agent，可以灵活地扩展任务类型，满足用户的不同需求。

关键设计：论文中没有详细描述关键参数设置、损失函数、网络结构等技术细节。但是，可以推测感知模块可能采用了目标检测、OCR等计算机视觉技术，Agent模块可能采用了自然语言处理和任务规划等技术。具体的实现细节可能依赖于OpenClaw AI Agent的内部实现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与非常时在线和非Agent的基线相比，VisionClaw能够更快地完成任务并减少交互开销。纵向部署研究还发现，用户在使用VisionClaw后，任务启动方式更加机会主义，执行方式更加倾向于委派，这表明VisionClaw改变了用户的交互习惯，使其更加自然和高效。

🎯 应用场景

VisionClaw具有广泛的应用前景，例如在工业巡检、医疗辅助、智能家居等领域。它可以帮助工人进行免提操作，提高工作效率；辅助医生进行远程诊断和手术指导；实现更加智能化的家居控制。未来，随着可穿戴设备和AI技术的不断发展，VisionClaw有望成为人们日常生活中不可或缺的智能助手。

📄 摘要（原文）

We present VisionClaw, an always-on wearable AI agent that integrates live egocentric perception with agentic task execution. Running on Meta Ray-Ban smart glasses, VisionClaw continuously perceives real-world context and enables in-situ, speech-driven action initiation and delegation via OpenClaw AI agents. Therefore, users can directly execute tasks through the smart glasses, such as adding real-world objects to an Amazon cart, generating notes from physical documents, receiving meeting briefings on the go, creating events from posters, or controlling IoT devices. We evaluate VisionClaw through a controlled laboratory study (N=12) and a longitudinal deployment study (N=5). Results show that integrating perception and execution enables faster task completion and reduces interaction overhead compared to non-always-on and non-agent baselines. Beyond performance gains, deployment findings reveal a shift in interaction: tasks are initiated opportunistically during ongoing activities, and execution is increasingly delegated rather than manually controlled. These results suggest a new paradigm for wearable AI agents, where perception and action are continuously coupled to support situated, hands-free interaction.

VisionClaw: Always-On AI Agents through Smart Glasses

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理