SFHand: A Streaming Framework for Language-guided 3D Hand Forecasting and Embodied Manipulation

📄 arXiv: 2511.18127v1 📥 PDF

作者: Ruicong Liu, Yifei Huang, Liangyang Ouyang, Caixin Kang, Yoichi Sato

分类: cs.CV

发布日期: 2025-11-22

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

SFHand:用于语言引导的3D手部预测和具身操作的流式框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 3D手部预测 流式框架 语言引导 具身操作 自回归模型 ROI增强 人机交互

📋 核心要点

  1. 现有3D手部预测方法通常需要离线访问累积的视频序列,且无法结合语言指导,不适用于AR和辅助机器人等场景。
  2. SFHand采用流式自回归架构,结合ROI增强的记忆层,从连续视频流和语言指令中预测未来3D手部状态。
  3. SFHand在3D手部预测上超越现有方法35.8%,迁移到具身操作任务后,任务成功率提升高达13.4%。

📝 摘要(中文)

本文提出SFHand,首个用于语言引导的3D手部预测流式框架。该框架从连续的视频流和语言指令中自回归地预测未来3D手部状态,包括手部类型、2D边界框、3D姿势和轨迹。SFHand结合了流式自回归架构和ROI增强的记忆层,在捕获时间上下文的同时,专注于以手为中心的显著区域。同时,本文发布了EgoHaFL,首个包含同步3D手部姿势和语言指令的大规模数据集。实验表明,SFHand在3D手部预测方面取得了新的state-of-the-art结果,性能提升高达35.8%。此外,通过将学习到的表征迁移到下游的具身操作任务中,任务成功率提高了高达13.4%。

🔬 方法详解

问题定义:现有3D手部预测方法主要依赖于离线视频序列,无法处理实时流数据,并且缺乏对语言指令的有效利用,限制了其在AR、机器人等交互场景中的应用。这些方法难以捕捉手部动作的时序依赖关系,也无法根据任务意图进行预测。

核心思路:SFHand的核心在于构建一个流式自回归框架,能够从连续的视频流和语言指令中预测未来的3D手部状态。通过结合ROI增强的记忆层,模型能够专注于手部区域,并有效捕获时间上下文信息,从而实现更准确、更实时的手部预测。语言指令的引入使得模型能够理解任务意图,从而进行更具针对性的预测。

技术框架:SFHand框架主要包含以下几个模块:1) 视频流输入模块,用于接收连续的视频帧;2) 语言指令输入模块,用于接收任务相关的语言描述;3) 特征提取模块,用于提取视频帧和语言指令的特征表示;4) ROI增强的记忆层,用于存储和更新手部区域的时序信息;5) 自回归预测模块,用于根据当前状态和历史信息预测未来的3D手部状态,包括手部类型、2D边界框、3D姿势和轨迹。整个流程是端到端的,可以进行实时预测。

关键创新:SFHand的关键创新在于以下几个方面:1) 提出了首个用于语言引导的3D手部预测流式框架;2) 结合了流式自回归架构和ROI增强的记忆层,有效捕获了时间上下文信息和手部区域特征;3) 引入了语言指令,使得模型能够理解任务意图,从而进行更具针对性的预测;4) 发布了EgoHaFL数据集,为相关研究提供了数据支持。与现有方法的本质区别在于,SFHand能够处理实时流数据,并结合语言指令进行预测。

关键设计:在ROI增强的记忆层中,使用了注意力机制来选择性地关注重要的手部区域。自回归预测模块采用了GRU或LSTM等循环神经网络结构,以捕捉时间依赖关系。损失函数包括3D姿势预测损失、2D边界框预测损失、手部类型分类损失和轨迹预测损失。具体参数设置需要根据数据集和任务进行调整,例如学习率、batch size、循环神经网络的隐藏层大小等。

📊 实验亮点

SFHand在EgoHaFL数据集上取得了显著的性能提升,在3D手部预测方面,相较于现有方法,性能提升高达35.8%。同时,通过将学习到的表征迁移到下游的具身操作任务中,任务成功率提高了高达13.4%。这些结果表明,SFHand能够有效地预测未来的3D手部状态,并能够泛化到其他相关任务中。

🎯 应用场景

SFHand在增强现实(AR)、辅助机器人、人机交互等领域具有广泛的应用前景。例如,在AR游戏中,可以根据玩家的语音指令预测手部动作,实现更自然、更流畅的交互体验。在辅助机器人领域,可以帮助机器人理解人类的意图,从而更好地完成任务。此外,SFHand还可以应用于手语识别、虚拟现实等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Real-time 3D hand forecasting is a critical component for fluid human-computer interaction in applications like AR and assistive robotics. However, existing methods are ill-suited for these scenarios, as they typically require offline access to accumulated video sequences and cannot incorporate language guidance that conveys task intent. To overcome these limitations, we introduce SFHand, the first streaming framework for language-guided 3D hand forecasting. SFHand autoregressively predicts a comprehensive set of future 3D hand states, including hand type, 2D bounding box, 3D pose, and trajectory, from a continuous stream of video and language instructions. Our framework combines a streaming autoregressive architecture with an ROI-enhanced memory layer, capturing temporal context while focusing on salient hand-centric regions. To enable this research, we also introduce EgoHaFL, the first large-scale dataset featuring synchronized 3D hand poses and language instructions. We demonstrate that SFHand achieves new state-of-the-art results in 3D hand forecasting, outperforming prior work by a significant margin of up to 35.8%. Furthermore, we show the practical utility of our learned representations by transferring them to downstream embodied manipulation tasks, improving task success rates by up to 13.4% on multiple benchmarks. Dataset page: https://huggingface.co/datasets/ut-vision/EgoHaFL, project page: https://github.com/ut-vision/SFHand.