ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly

作者: Kimihiro Hasegawa, Wiradee Imrattanatrai, Masaki Asada, Susan Holm, Yuran Wang, Vincent Zhou, Ken Fukuda, Teruko Mitamura

分类: cs.CL, cs.CV

发布日期: 2025-09-03

备注: 29 pages. Code and data: https://github.com/kimihiroh/promqa-assembly

💡 一句话要点

提出ProMQA-Assembly多模态程序化问答数据集，用于评估装配任务助手。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态问答 程序化活动理解 装配任务 半自动标注 指令任务图

📋 核心要点

现有方法缺乏在实际装配环境中评估应用导向系统的测试平台，阻碍了装配助手的开发。
论文提出ProMQA-Assembly数据集，结合人类活动记录和指令手册，采用半自动标注方法降低成本。
通过基准测试，发现现有模型在理解装配任务的多模态信息方面仍有提升空间，为未来研究指明方向。

📝 摘要（中文）

本文提出了一个新的多模态问答数据集ProMQA-Assembly，专注于装配活动，旨在促进程序化活动助手的开发。该数据集包含391个问答对，需要对人类活动记录和在线指令手册进行多模态理解。为了高效地创建数据集，采用了半自动问答标注方法，即利用大型语言模型生成候选答案，然后由人工进行验证。通过整合细粒度的动作标签来增加问题类型的多样性。此外，还为玩具车辆的装配任务创建了指令任务图，用于基准测试和辅助人工验证过程。利用该数据集，对包括有竞争力的商业多模态模型在内的多个模型进行了基准测试，结果表明当前模型仍有很大的改进空间。该数据集有望促进程序化活动助手的进一步发展。

🔬 方法详解

问题定义：论文旨在解决缺乏针对装配任务的、应用导向的多模态问答数据集的问题。现有方法难以在实际装配环境中评估装配助手的性能，阻碍了相关技术的发展。缺乏这样的数据集使得研究人员难以开发和评估能够理解人类活动和指令手册的多模态模型，从而限制了装配助手的实际应用。

核心思路：论文的核心思路是构建一个包含人类活动视频和对应指令手册的多模态问答数据集，并采用半自动标注方法来降低数据集构建的成本。通过利用大型语言模型生成候选答案，并由人工进行验证，可以高效地创建高质量的问答对。同时，通过引入细粒度的动作标签，可以增加问题类型的多样性，从而更全面地评估模型的理解能力。

技术框架：ProMQA-Assembly数据集的构建流程主要包括以下几个阶段：1) 收集人类进行玩具车辆装配的视频数据；2) 获取相应的在线指令手册；3) 利用大型语言模型生成候选问答对；4) 人工验证和修正候选问答对；5) 构建指令任务图，用于辅助人工验证和基准测试。该数据集包含视频、文本和任务图三种模态的信息。

关键创新：该论文的关键创新在于提出了一个针对装配任务的多模态问答数据集，并采用半自动标注方法来降低数据集构建的成本。与以往的数据集相比，ProMQA-Assembly数据集更侧重于实际应用场景，并且包含了指令任务图，可以更全面地评估模型在装配任务中的理解能力。半自动标注方法通过结合大型语言模型和人工验证，可以高效地创建高质量的问答对。

关键设计：在半自动标注过程中，论文采用了细粒度的动作标签来指导大型语言模型生成问题，从而增加问题类型的多样性。指令任务图用于表示装配任务的步骤和依赖关系，可以辅助人工验证问答对的正确性，并用于基准测试中评估模型对任务流程的理解能力。具体的参数设置和网络结构取决于基准测试中使用的模型，论文中没有详细描述。

📊 实验亮点

论文利用ProMQA-Assembly数据集对多个模型进行了基准测试，包括有竞争力的商业多模态模型。实验结果表明，现有模型在理解装配任务的多模态信息方面仍有很大的提升空间，例如在理解视频中的动作和指令手册中的文本描述之间的对应关系方面。这为未来的研究指明了方向，即需要开发更强大的多模态模型来更好地理解和推理装配任务。

🎯 应用场景

该研究成果可应用于开发智能装配助手，帮助人们完成日常任务和工业生产中的装配工作。例如，可以应用于智能家居、机器人辅助装配、远程协作等领域。通过理解人类活动和指令手册，装配助手可以提供实时的指导和反馈，提高装配效率和质量，降低错误率，并减少对专业技能的依赖。

📄 摘要（原文）

Assistants on assembly tasks have a large potential to benefit humans from everyday tasks to industrial settings. However, no testbeds support application-oriented system evaluation in a practical setting, especially in assembly. To foster the development, we propose a new multimodal QA dataset on assembly activities. Our dataset, ProMQA-Assembly, consists of 391 QA pairs that require the multimodal understanding of human-activity recordings and their instruction manuals in an online-style manner. In the development, we adopt a semi-automated QA annotation approach, where LLMs generate candidates and humans verify them, as a cost-effective method, and further improve it by integrating fine-grained action labels to diversify question types. Furthermore, we create instruction task graphs for the target tasks of assembling toy vehicles. These newly created task graphs are used in our benchmarking experiment, as well as to facilitate the human verification process in the QA annotation. Utilizing our dataset, we benchmark models, including competitive proprietary multimodal models. Our results suggest great room for improvement for the current models. We believe our new evaluation dataset can contribute to the further development of procedural-activity assistants.

ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册