Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use
作者: Zhixin Ma, Yutong Zhou, Yongqi Li, Chong-Wah Ngo, Wenjie Li
分类: cs.CL, cs.AI, cs.CV
发布日期: 2026-06-09
💡 一句话要点
提出PhysTool-Bench以评估多模态大语言模型在物理工具使用中的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 物理工具使用 具身人工智能 工具识别 任务规划 PhysTool-Bench 机器人操作
📋 核心要点
- 现有的多模态大语言模型在物理工具使用方面的能力尚未得到充分研究,存在感知和规划的双重不足。
- 本文提出PhysTool-Bench基准,旨在系统评估MLLMs在理解现实场景和物理工具使用方面的能力。
- 实验结果显示,当前最强模型在工具识别和任务完成率上表现不佳,揭示了具身人工智能发展的瓶颈。
📝 摘要(中文)
多模态大语言模型(MLLMs)在利用数字API方面表现出色,并逐渐成为具身人工智能的“大脑”,指导机器人与物理世界互动。然而,MLLMs在物理工具使用方面的能力尚未得到充分探索。为此,本文引入了PhysTool-Bench,这是第一个旨在评估MLLMs理解现实场景、识别物理工具及规划其使用能力的基准。PhysTool-Bench包含2,510个查询,涵盖2,678种真实物理工具,涉及制造、电气工作、农业和医疗等多个领域。模型在识别场景中的物理工具和基于指令及视觉上下文规划工具选择与使用顺序两个维度进行评估。研究发现,即使是最强的模型(Gemini-3.1-Pro)也仅识别出58.7%的工具,且仅完成21.0%的查询,揭示了MLLMs在现实场景感知和规划阶段的显著不足。
🔬 方法详解
问题定义:本文旨在解决多模态大语言模型在物理工具使用中的能力不足,尤其是在现实场景中工具的感知和任务规划方面的挑战。现有方法未能有效评估和提升这些能力。
核心思路:论文提出PhysTool-Bench基准,通过设计多样化的查询和真实工具场景,系统评估MLLMs的理解和规划能力,以填补这一研究空白。
技术框架:PhysTool-Bench的整体架构包括两个主要模块:工具识别模块和任务规划模块。工具识别模块负责识别场景中的所有物理工具,而任务规划模块则基于指令和视觉上下文进行工具选择和使用顺序的规划。
关键创新:最重要的技术创新在于PhysTool-Bench的设计,它是首个专注于物理工具使用的基准,能够揭示MLLMs在实际应用中的局限性,与现有基准相比,提供了更具针对性的评估方式。
关键设计:在实验中,PhysTool-Bench包含2,510个查询,覆盖2,678种工具,设计了多样化的场景和任务,确保评估的全面性和有效性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,当前最强的多模态大语言模型(Gemini-3.1-Pro)在工具识别方面仅达到58.7%的准确率,且在任务完成率上仅为21.0%。这一结果揭示了MLLMs在物理工具使用中的显著不足,尤其是在规划阶段的功能常识缺失,指出了具身人工智能发展的关键瓶颈。
🎯 应用场景
该研究的潜在应用领域包括机器人操作、智能制造、农业自动化和医疗辅助等。通过提升多模态大语言模型在物理工具使用中的能力,能够更好地支持人机协作,提高工作效率和安全性,推动具身人工智能的实际应用。未来,这一研究可能为开发更智能的机器人系统奠定基础。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) excel at utilizing digital APIs and increasingly serve as the "brain" of embodied AI, instructing robots to interact with the physical world. In such embodied settings, a central capability is the use of physical tools, which underpins MLLMs' ability to assist humans in real-world tasks. Despite the importance, MLLMs' proficiency in physical tool use remains largely unexplored. To address this gap, we introduce PhysTool-Bench, the first physical tool-use benchmark designed to evaluate MLLMs' ability to comprehend real-world scenarios, identify physical tools, and plan their use. PhysTool-Bench comprises 2,510 queries over 2,678 real-world physical tools spanning diverse domains, including manufacturing, electrical work, agriculture, and healthcare. Concretely, models are evaluated along two primary dimensions: 1) recognizing all physical tools present in the scene, and 2) planning the tool selection and use sequence based on the instruction and visual context. Across 13 leading MLLMs, even the strongest model (Gemini-3.1-Pro) identifies only 58.7% of tools in a scene and completes merely 21.0% of queries end-to-end. Our analysis reveals a two-level deficit: MLLMs struggle to perceive tools in realistic scenes, and the much larger drop at the planning stage further indicates a lack of functional commonsense for mapping perceived tools onto task semantics, pinpointing a critical bottleneck for the development of practical embodied AI.