A Gesture-Based Visual Learning Model for Acoustophoretic Interactions using a Swarm of AcoustoBots

作者: Alex Lin, Lei Gao, Narsimlu Kemsaram, Sriram Subramanian

分类: cs.RO

发布日期: 2026-04-21

备注: This paper has been accepted for publication in the Proceedings of the 2026 4th International Conference on Robotics, Control and Vision Engineering (RCVE 2026)

💡 一句话要点

提出基于手势的视觉学习模型，实现对AcoustoBot集群声操控的直观控制。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AcoustoBot 集群机器人 手势识别 视觉学习模型 人机交互

📋 核心要点

现有AcoustoBot系统依赖脚本命令，缺乏直观的实时人工控制界面，限制了其应用。
利用视觉学习模型，将手势映射到AcoustoBot的触觉、音频和悬浮等多种模态控制。
实验表明，该系统能有效识别手势并控制AcoustoBot，手势到模态切换准确率达87.8%。

📝 摘要（中文）

本文提出了一种基于手势的视觉学习框架，用于非接触式人-集群交互，该平台使用多模态AcoustoBot。系统结合了ESP32-CAM手势捕捉、PhaseSpace运动跟踪、集中式处理以及基于OpenCLIP的视觉学习模型(VLM)与线性探测，以分类三种手势并将其映射到触觉、音频和悬浮模态。验证准确率从小型数据集的约67%提高到最大数据集的近98%。在包含两个AcoustoBot的集成实验中，系统在90次试验中实现了87.8%的整体手势到模态切换准确率，平均端到端延迟为3.95秒。这些结果证明了使用基于视觉-语言模型的手势界面进行多模态人-集群交互的可行性。虽然当前系统受到集中式处理、静态手势集和受控环境评估的限制，但它为更具表现力、可扩展性和可访问性的集群机器人界面奠定了基础。

🔬 方法详解

问题定义：现有AcoustoBot集群的控制方式依赖于预先设定的脚本命令，缺乏直观且实时的用户交互界面。这使得用户难以灵活地控制AcoustoBot集群，限制了其在复杂环境中的应用。

核心思路：论文的核心思路是利用视觉学习模型，将用户的手势转化为对AcoustoBot集群的控制指令。通过识别不同的手势，系统可以控制AcoustoBot产生不同的触觉反馈、音频输出或进行声悬浮操作。这种基于手势的交互方式更加直观、自然，方便用户实时控制AcoustoBot集群。

技术框架：该系统主要包含以下几个模块：1) ESP32-CAM用于捕捉用户的手势图像；2) PhaseSpace运动跟踪系统用于精确跟踪AcoustoBot的位置；3) 集中式处理单元负责处理手势图像，并生成相应的控制指令；4) 基于OpenCLIP的视觉学习模型(VLM)用于识别手势，并将其映射到不同的控制模态（触觉、音频、悬浮）。整个流程是：用户做出手势 -> ESP32-CAM捕捉图像 -> VLM识别手势 -> 集中式处理单元生成控制指令 -> AcoustoBot集群执行相应操作。

关键创新：该论文的关键创新在于将视觉学习模型应用于AcoustoBot集群的控制。与传统的基于脚本命令的控制方式相比，该方法更加灵活、直观，允许用户通过自然的手势与AcoustoBot集群进行交互。此外，使用OpenCLIP作为视觉学习模型，可以利用其强大的视觉特征提取能力，提高手势识别的准确率。

关键设计：该系统使用OpenCLIP预训练模型，并通过线性探测(linear probing)的方式进行微调，以适应手势识别任务。线性探测是一种高效的迁移学习方法，可以快速地将预训练模型的知识迁移到新的任务上。此外，论文还设计了一个包含三种手势的数据集，用于训练和评估视觉学习模型。数据集的大小对模型的性能有显著影响，更大的数据集可以提高手势识别的准确率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该系统能够有效地识别手势并控制AcoustoBot集群。在集成实验中，系统在90次试验中实现了87.8%的整体手势到模态切换准确率，平均端到端延迟为3.95秒。通过增加训练数据集，手势识别的验证准确率从67%提高到近98%。这些结果验证了基于视觉学习模型的手势界面在多模态人-集群交互中的可行性。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、远程协作等领域。例如，在虚拟现实环境中，用户可以通过手势与虚拟物体进行交互，获得更真实的触觉反馈。在远程协作中，用户可以通过手势控制远程的机器人进行操作，从而实现更高效的协作。该技术还可用于开发新型的辅助设备，帮助残疾人更好地与周围环境进行交互。

📄 摘要（原文）

AcoustoBots are mobile acoustophoretic robots capable of delivering mid-air haptics, directional audio, and acoustic levitation, but existing implementations rely on scripted commands and lack an intuitive interface for real-time human control. This work presents a gesture-based visual learning framework for contactless human-swarm interaction with a multimodal AcoustoBot platform. The system combines ESP32-CAM gesture capture, PhaseSpace motion tracking, centralized processing, and an OpenCLIP-based visual learning model (VLM) with linear probing to classify three hand gestures and map them to haptics, audio, and levitation modalities. Validation accuracy improved from about 67% with a small dataset to nearly 98% with the largest dataset. In integrated experiments with two AcoustoBots, the system achieved an overall gesture-to-modality switching accuracy of 87.8% across 90 trials, with an average end-to-end latency of 3.95 seconds. These results demonstrate the feasibility of using a vision-language-model-based gesture interface for multimodal human-swarm interaction. While the current system is limited by centralized processing, a static gesture set, and controlled-environment evaluation, it establishes a foundation for more expressive, scalable, and accessible swarm robotic interfaces.

A Gesture-Based Visual Learning Model for Acoustophoretic Interactions using a Swarm of AcoustoBots

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理