HiSync: Spatio-Temporally Aligning Hand Motion from Wearable IMU and On-Robot Camera for Command Source Identification in Long-Range HRI

📄 arXiv: 2603.11809v1 📥 PDF

作者: Chengwen Zhang, Chun Yu, Borong Zhuang, Haopeng Jin, Qingyang Wan, Zhuojun Li, Zhe He, Zhoutong Ye, Yu Mei, Chang Liu, Weinan Shi, Yuanchun Shi

分类: cs.HC, cs.RO

发布日期: 2026-03-12

DOI: 10.1145/3772318.3790345


💡 一句话要点

HiSync:通过光惯性融合实现远距离人机交互中的命令源识别

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 命令源识别 光惯性融合 远距离交互 多模态融合

📋 核心要点

  1. 远距离人机交互中,命令源识别面临多用户和距离带来的传感器模糊性挑战。
  2. HiSync通过融合机器人摄像头光流和手部IMU信号,提取手部运动特征,实现跨模态对齐和相似度计算。
  3. 实验表明,HiSync在远距离多人场景下显著提升了命令源识别的准确率,并在真实机器人上验证了有效性。

📝 摘要(中文)

本文提出HiSync,一个光惯性融合框架,旨在解决远距离人机交互(HRI)中命令源识别(CSI)的难题。该框架利用手部运动作为绑定线索,通过对齐机器人摄像头的光流和手部佩戴IMU的信号来实现。首先,作者定义了一套用户手势(N=12),并收集了一个多模态命令手势数据集(N=38),用于远距离多人HRI场景。然后,HiSync从摄像头和IMU数据中提取频域手部运动特征,并使用学习到的CSINet来降噪IMU读数,进行时间对齐,并执行距离感知的多窗口融合,以计算细微自然手势的跨模态相似性,从而实现鲁棒的CSI。在高达34米的三人场景中,HiSync实现了92.32%的CSI准确率,超过了现有SOTA方法48.44%。HiSync还在真实机器人部署上进行了验证。通过使CSI可靠和自然,HiSync为公共空间HRI提供了一个实用的基元和设计指导。

🔬 方法详解

问题定义:远距离人机交互中的命令源识别(CSI)问题,即确定哪个用户发出了指令。现有方法在远距离和多用户场景下,由于传感器噪声、遮挡以及用户间的相似动作,导致识别精度显著下降,难以满足实际应用需求。现有方法缺乏对不同模态数据有效融合和对距离因素的考虑。

核心思路:将手部运动作为命令源识别的关键线索,通过融合机器人摄像头捕获的光流信息和手部佩戴IMU的惯性数据,实现对用户手势的精确识别。核心在于利用互补的视觉和惯性信息,克服单一模态的局限性,并学习跨模态的相似性度量。

技术框架:HiSync框架包含数据采集、特征提取、跨模态对齐和命令源识别四个主要阶段。首先,利用机器人摄像头和手部IMU同步采集数据。然后,从摄像头数据中提取光流特征,从IMU数据中提取加速度和角速度特征,并在频域进行分析。接着,使用CSINet对IMU数据进行降噪和时间对齐,并进行距离感知的多窗口融合。最后,基于跨模态相似度计算,识别出命令源。

关键创新:HiSync的关键创新在于:1) 提出了一种光惯性融合的方法,有效结合了视觉和惯性信息,提高了远距离和多用户场景下的识别精度。2) 设计了CSINet网络,用于IMU数据的降噪和时间对齐,解决了跨模态数据融合的难题。3) 引入了距离感知的多窗口融合策略,考虑了距离对特征的影响,进一步提升了识别的鲁棒性。

关键设计:CSINet网络采用Encoder-Decoder结构,用于学习IMU数据的降噪和时间对齐。损失函数包括重构损失和对比损失,用于优化网络的性能。多窗口融合策略采用不同大小的时间窗口,以捕捉不同时间尺度的手势信息。距离感知模块通过学习距离与特征之间的关系,对特征进行加权,从而提高远距离识别的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HiSync在三人场景下,远达34米的距离实现了92.32%的命令源识别准确率,相较于现有SOTA方法提升了48.44%。此外,在真实机器人部署上的验证也表明了HiSync的实用性和有效性。实验结果充分证明了光惯性融合在远距离人机交互中的优势。

🎯 应用场景

HiSync在公共空间人机交互、远程协作机器人控制、智能家居等领域具有广泛的应用前景。通过提高远距离命令源识别的准确性和鲁棒性,可以实现更自然、更安全的人机交互体验。该研究为未来公共空间人机交互系统的设计提供了重要的参考和指导。

📄 摘要(原文)

Long-range Human-Robot Interaction (HRI) remains underexplored. Within it, Command Source Identification (CSI) - determining who issued a command - is especially challenging due to multi-user and distance-induced sensor ambiguity. We introduce HiSync, an optical-inertial fusion framework that treats hand motion as binding cues by aligning robot-mounted camera optical flow with hand-worn IMU signals. We first elicit a user-defined (N=12) gesture set and collect a multimodal command gesture dataset (N=38) in long-range multi-user HRI scenarios. Next, HiSync extracts frequency-domain hand motion features from both camera and IMU data, and a learned CSINet denoises IMU readings, temporally aligns modalities, and performs distance-aware multi-window fusion to compute cross-modal similarity of subtle, natural gestures, enabling robust CSI. In three-person scenes up to 34m, HiSync achieves 92.32% CSI accuracy, outperforming the prior SOTA by 48.44%. HiSync is also validated on real-robot deployment. By making CSI reliable and natural, HiSync provides a practical primitive and design guidance for public-space HRI.