Decentralized LLM-Driven Coordination of Acoustic Robots for Contactless Object Manipulation
作者: Yingying Wang, Narsimlu Kemsaram, Sriram Subramanian
分类: cs.RO
发布日期: 2026-05-28
备注: This paper has been accepted for publication in the Proceedings of the 2026 IEEE 22nd International Conference on Automation Science and Engineering (CASE 2026), August 17-21, 2026, Shenyang, China
💡 一句话要点
提出基于LLM的分布式声学机器人协同框架,实现非接触式物体操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 分布式机器人 声学操控 非接触式操作 人机交互 自然语言处理 机器人协同
📋 核心要点
- 现有多机器人系统交互复杂,非专业用户难以发出高级指令,而声学操控为医疗等领域提供非接触式操作可能。
- 论文提出一种去中心化框架,利用LLM将自然语言指令转换为多机器人任务计划,实现非接触式物体操作。
- 实验表明,该系统在顺序、并行和同步任务中均取得较高成功率,验证了LLM驱动自动化在分布式机器人系统中的潜力。
📝 摘要(中文)
本文提出了一种去中心化的框架,利用大型语言模型(LLM)驱动声学机器人进行非接触式物体操作的协同。该系统使用基于Whisper的语音识别将口语指令转换为可执行的多机器人任务计划,通过基于LLM的语义解析、结构化的JSON任务表示和分布式调度来实现。JSON模式编码了机器人分配、时间依赖性、空间约束以及顺序、并行和同步执行的同步要求。该系统在两个基于TurtleBot3的声学机器人上实现,每个机器人配备一个用于非接触式物体运输的超声相控阵。实验在三种场景下进行:顺序执行、并行多机器人运输和同步协作操作。系统在顺序任务中实现了96%的任务成功率,并行执行中为86%,同步协作运输中为70%。结果表明,自然语言命令可以转化为分布式机器人动作以进行非接触式操作,突出了LLM驱动的自动化在分布式机器人系统中人机交互的潜力。
🔬 方法详解
问题定义:现有方法在多机器人协同控制中,用户需要具备专业的编程知识才能实现复杂的任务指令。尤其是在非接触式操作领域,如何利用自然语言简化人机交互,实现高效的分布式机器人协同控制是一个挑战。现有方法缺乏将高级自然语言指令转化为机器人可执行任务计划的有效机制,限制了非专业用户的使用。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解和推理能力,将用户的自然语言指令转化为结构化的多机器人任务计划。通过去中心化的方式,每个机器人独立执行分配的任务,从而实现高效的协同控制。这种设计降低了用户与机器人系统交互的门槛,并提高了系统的灵活性和可扩展性。
技术框架:该系统的整体框架包括以下几个主要模块:1) 基于Whisper的语音识别模块,用于将用户的口语指令转换为文本;2) 基于LLM的语义解析模块,用于理解文本指令的含义,并将其转化为结构化的JSON任务表示;3) 分布式调度模块,用于将任务分配给各个机器人,并协调它们的执行;4) 声学机器人控制模块,用于控制机器人执行非接触式物体操作。
关键创新:该论文的关键创新在于将LLM应用于分布式声学机器人的协同控制,实现自然语言驱动的非接触式物体操作。与传统的基于规则或有限状态机的控制方法相比,该方法具有更强的语义理解能力和任务泛化能力。此外,该系统采用去中心化的架构,提高了系统的鲁棒性和可扩展性。
关键设计:JSON任务表示是关键设计之一,它编码了机器人分配、时间依赖性、空间约束以及同步要求,支持顺序、并行和同步执行。此外,LLM的选择和prompt设计对语义解析的准确性至关重要,但论文中未明确指出具体LLM型号和prompt细节,这部分信息未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该系统在三种不同的场景下均取得了较好的性能。在顺序执行任务中,任务成功率达到96%;在并行多机器人运输任务中,任务成功率为86%;在同步协作运输任务中,任务成功率为70%。这些结果验证了该系统在不同任务场景下的有效性和鲁棒性。虽然没有明确的基线对比,但这些成功率表明了LLM驱动的分布式机器人协同控制的可行性。
🎯 应用场景
该研究成果可应用于医疗保健、实验室自动化、精密运输等领域。例如,在医疗领域,机器人可以利用声学操控技术进行非接触式药物递送或细胞操作。在实验室自动化领域,机器人可以自动完成复杂的实验流程,提高实验效率和精度。未来,该技术有望进一步拓展到更多需要非接触式操作的场景,如微电子制造、食品加工等。
📄 摘要(原文)
Natural language interfaces can simplify interaction with multi-robot systems, especially when non-expert users need to issue high-level commands. Acoustic manipulation using ultrasonic phased arrays also enables contactless object handling for applications such as healthcare, laboratory automation, and precision transport. However, combining large language models (LLMs) with distributed acoustic mobile robots remains underexplored. This paper presents a decentralized framework for natural language-driven coordination of acoustic robots for contactless object manipulation. The system converts spoken instructions into executable multi-robot task plans using Whisper-based speech recognition, LLM-based semantic parsing, structured JSON task representation, and distributed scheduling. The JSON schema encodes robot assignments, temporal dependencies, spatial constraints, and synchronization requirements for sequential, parallel, and synchronized execution. The system is implemented on two TurtleBot3-based acoustic robots, each equipped with an ultrasonic phased array for contactless object transport. Experiments were conducted in three scenarios: sequential execution, parallel multi-robot transport, and synchronized cooperative manipulation. The system achieved task success rates of 96 percent for sequential tasks, 86 percent for parallel execution, and 70 percent for synchronized collaborative transport. These results show that natural language commands can be transformed into distributed robot actions for contactless manipulation, highlighting the potential of LLM-driven automation for human-robot interaction in distributed robotic systems.