SurfaceXR: Fusing Smartwatch IMUs and Egocentric Hand Pose for Seamless Surface Interactions
作者: Vasco Xu, Brian Chen, Eric J. Gonzalez, Andrea Colaço, Henry Hoffmann, Mar Gonzalez-Franco, Karan Ahuja
分类: cs.CV, cs.HC, cs.LG
发布日期: 2026-03-19
备注: Accepted to IEEE VR 2026 as a TVCG journal paper
💡 一句话要点
SurfaceXR:融合智能手表IMU与手部姿态,实现无缝表面交互
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 扩展现实 表面交互 传感器融合 手部跟踪 IMU 智能手表 人机交互
📋 核心要点
- XR中的空中手势易疲劳且精度低,基于视觉的表面交互受限于手部跟踪和平面估计。
- SurfaceXR融合头显手部跟踪和智能手表IMU数据,利用模态互补性实现稳健的表面交互。
- 实验表明,SurfaceXR在触摸跟踪和手势识别方面优于单模态方法,验证了其有效性。
📝 摘要(中文)
扩展现实(XR)中的空中手势交互常导致疲劳和不精确。基于表面的交互提供了更高的精度和舒适度,但现有的以自我为中心的视觉方法由于手部跟踪挑战和不可靠的表面平面估计而面临困难。我们提出了SurfaceXR,一种结合头显手部跟踪和智能手表IMU数据的传感器融合方法,以实现日常表面上的稳健输入。我们的核心思想是这些模态是互补的:手部跟踪提供3D位置数据,而IMU捕获高频运动。一项有21名参与者的研究验证了SurfaceXR在触摸跟踪和8类手势识别方面的有效性,证明了其相对于单模态方法的显著改进。
🔬 方法详解
问题定义:论文旨在解决扩展现实(XR)中,用户与虚拟环境进行表面交互时,由于手部跟踪不稳定和表面平面估计不准确,导致交互体验不佳的问题。现有方法,如仅依赖视觉的手部跟踪,在遮挡、光照变化等情况下表现不佳,而单独使用IMU则缺乏绝对位置信息。这些痛点限制了XR表面交互的实用性。
核心思路:SurfaceXR的核心思路是利用头显的手部跟踪数据和智能手表的IMU数据进行传感器融合。手部跟踪提供3D位置信息,但可能存在噪声和漂移;IMU提供高频运动数据,可以捕捉细微的运动变化。通过融合这两种互补的数据源,可以提高表面交互的精度和鲁棒性。
技术框架:SurfaceXR系统主要包含以下几个模块:1) 数据采集模块:通过头显摄像头获取手部图像,通过智能手表获取IMU数据。2) 手部姿态估计模块:利用计算机视觉算法从手部图像中估计手部姿态。3) IMU数据处理模块:对IMU数据进行滤波、去噪等处理,提取运动特征。4) 传感器融合模块:将手部姿态估计结果和IMU运动特征进行融合,得到更准确的手部位置和运动轨迹。5) 表面交互模块:根据融合后的手部位置和运动轨迹,实现触摸、滑动、点击等表面交互功能。
关键创新:SurfaceXR的关键创新在于提出了一个有效的传感器融合框架,将视觉手部跟踪和IMU数据相结合,克服了单一模态的局限性。与现有方法相比,SurfaceXR能够更准确地跟踪手部运动,并提供更稳定的表面交互体验。此外,该方法不需要额外的外部设备,易于部署和使用。
关键设计:传感器融合模块是SurfaceXR的关键。具体融合方法未知,但可能采用卡尔曼滤波或类似的优化算法,将视觉手部跟踪的位置信息作为先验,利用IMU的运动信息进行修正。损失函数的设计可能包括位置误差、速度误差和加速度误差等,以保证融合结果的准确性和平滑性。具体的参数设置和网络结构未知,需要参考论文的详细描述。
🖼️ 关键图片
📊 实验亮点
SurfaceXR通过21名参与者的实验验证了其有效性。实验结果表明,SurfaceXR在触摸跟踪和8类手势识别方面均优于单模态方法。具体的性能数据和提升幅度未知,但摘要中提到“significant improvements”,表明SurfaceXR具有显著的优势。
🎯 应用场景
SurfaceXR可应用于各种XR场景,例如虚拟桌面交互、3D建模、游戏控制等。它能够提供更自然、精确和舒适的表面交互体验,提高用户的工作效率和娱乐体验。未来,SurfaceXR有望成为XR设备的重要组成部分,推动XR技术的普及和应用。
📄 摘要(原文)
Mid-air gestures in Extended Reality (XR) often cause fatigue and imprecision. Surface-based interactions offer improved accuracy and comfort, but current egocentric vision methods struggle due to hand tracking challenges and unreliable surface plane estimation. We introduce SurfaceXR, a sensor fusion approach combining headset-based hand tracking with smartwatch IMU data to enable robust inputs on everyday surfaces. Our insight is that these modalities are complementary: hand tracking provides 3D positional data while IMUs capture high-frequency motion. A 21-participant study validates SurfaceXR's effectiveness for touch tracking and 8-class gesture recognition, demonstrating significant improvements over single-modality approaches.