ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly

📄 arXiv: 2509.02949v1 📥 PDF

作者: Kimihiro Hasegawa, Wiradee Imrattanatrai, Masaki Asada, Susan Holm, Yuran Wang, Vincent Zhou, Ken Fukuda, Teruko Mitamura

分类: cs.CL, cs.CV

发布日期: 2025-09-03

备注: 29 pages. Code and data: https://github.com/kimihiroh/promqa-assembly


💡 一句话要点

提出ProMQA-Assembly多模态程序化问答数据集,用于评估装配任务助手。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态问答 程序化活动 装配任务 数据集构建 半自动标注

📋 核心要点

  1. 现有装配任务助手缺乏实际应用场景下的系统评估测试平台,阻碍了相关技术的发展。
  2. 论文提出ProMQA-Assembly数据集,结合人类活动视频和指令手册,进行多模态理解问答。
  3. 通过半自动标注方法降低成本,并利用任务图辅助标注和基准测试,为模型评估提供支持。

📝 摘要(中文)

本文提出了一个新的多模态问答数据集ProMQA-Assembly,专注于装配活动,旨在促进程序化活动助手的开发。该数据集包含391个问答对,需要对人类活动记录和在线指令手册进行多模态理解。开发过程中,采用了一种半自动问答标注方法,即利用大型语言模型生成候选答案,然后由人工进行验证,以此降低成本。通过整合细粒度的动作标签来丰富问题类型,并创建了玩具车辆装配任务的指令任务图,用于基准测试和辅助人工验证。利用该数据集,对包括商业多模态模型在内的多个模型进行了基准测试,结果表明现有模型仍有很大的改进空间。该数据集有望推动程序化活动助手的进一步发展。

🔬 方法详解

问题定义:论文旨在解决装配任务助手的评估问题。现有方法缺乏在实际装配场景下的多模态理解能力评估数据集,使得相关算法难以在真实环境中部署。现有的数据集通常关注通用场景,缺乏针对装配任务的特定设计,无法有效评估模型对装配步骤、工具使用和操作顺序的理解能力。

核心思路:论文的核心思路是构建一个专门针对装配任务的多模态问答数据集,该数据集包含人类活动视频和相应的指令手册,要求模型能够理解视频中的动作和指令手册中的步骤,并回答相关问题。通过这种方式,可以更全面地评估模型在装配任务中的理解和推理能力。

技术框架:ProMQA-Assembly数据集的构建流程主要包括以下几个阶段:1) 数据收集:收集人类进行玩具车辆装配的视频,并获取相应的指令手册。2) 任务图构建:为每个装配任务构建指令任务图,描述装配步骤之间的依赖关系。3) 问答对生成:采用半自动标注方法,利用大型语言模型生成候选问答对,然后由人工进行验证和修正。4) 数据集划分:将数据集划分为训练集、验证集和测试集,用于模型训练和评估。

关键创新:论文的关键创新在于提出了半自动问答标注方法,该方法结合了大型语言模型的生成能力和人工验证的准确性,可以有效地降低数据集构建的成本。此外,论文还利用指令任务图来辅助问答对的生成和验证,从而保证了数据集的质量和多样性。

关键设计:在半自动标注过程中,论文采用了细粒度的动作标签来指导大型语言模型生成不同类型的问答对,例如关于工具使用、操作顺序和步骤依赖关系的问题。此外,论文还设计了专门的评估指标来衡量模型在ProMQA-Assembly数据集上的性能,包括准确率、召回率和F1值等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文利用ProMQA-Assembly数据集对多个模型进行了基准测试,包括商业多模态模型。实验结果表明,现有模型在理解装配任务中的多模态信息方面仍存在很大的改进空间。例如,在回答关于操作顺序和步骤依赖关系的问题时,模型的准确率较低,表明模型对程序化活动的理解能力不足。这为未来的研究指明了方向。

🎯 应用场景

该研究成果可应用于开发智能装配助手,帮助人们完成复杂的装配任务,提高生产效率和产品质量。此外,该数据集还可以用于训练和评估机器人操作技能,促进人机协作在工业制造领域的应用。未来,该研究有望扩展到其他程序化活动领域,如烹饪、维修等。

📄 摘要(原文)

Assistants on assembly tasks have a large potential to benefit humans from everyday tasks to industrial settings. However, no testbeds support application-oriented system evaluation in a practical setting, especially in assembly. To foster the development, we propose a new multimodal QA dataset on assembly activities. Our dataset, ProMQA-Assembly, consists of 391 QA pairs that require the multimodal understanding of human-activity recordings and their instruction manuals in an online-style manner. In the development, we adopt a semi-automated QA annotation approach, where LLMs generate candidates and humans verify them, as a cost-effective method, and further improve it by integrating fine-grained action labels to diversify question types. Furthermore, we create instruction task graphs for the target tasks of assembling toy vehicles. These newly created task graphs are used in our benchmarking experiment, as well as to facilitate the human verification process in the QA annotation. Utilizing our dataset, we benchmark models, including competitive proprietary multimodal models. Our results suggest great room for improvement for the current models. We believe our new evaluation dataset can contribute to the further development of procedural-activity assistants.