Predicting Implicit Arguments in Procedural Video Instructions

作者: Anil Batra, Laura Sevilla-Lara, Marcus Rohrbach, Frank Keller

分类: cs.CL, cs.CV

发布日期: 2025-05-27

备注: ACL 2025 Main

💡 一句话要点

提出Implicit-VidSRL数据集，并用iSRL-Qwen2-VL模型提升视频指令中隐式语义角色预测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 隐式论元预测 语义角色标注 多模态学习 视频指令理解 上下文推理

📋 核心要点

现有语义角色标注基准测试忽略了程序性文本中的隐式论元，导致对指令理解不完整。
提出Implicit-VidSRL数据集，专注于从多模态上下文中推断隐式和显式论元，促进上下文推理。
提出的iSRL-Qwen2-VL模型在隐式语义角色预测上显著优于GPT-4o，提升了F1得分。

📝 摘要（中文）

程序性文本有助于AI增强对上下文和动作序列的推理。将其转换为语义角色标注（SRL）通过识别谓词-论元结构（如{动词,什么,哪里/用什么}）来提高对各个步骤的理解。程序性指令具有高度省略性，例如，(i) 将黄瓜加入碗中，(ii) 加入切好的西红柿，第二步的“哪里”论元是从上下文中推断出来的，指的是放置黄瓜的地方。先前的SRL基准测试通常忽略隐式论元，导致理解不完整。为了解决这个问题，我们引入了Implicit-VidSRL，这是一个需要从多模态烹饪程序中的上下文信息中推断隐式和显式论元的数据集。我们提出的数据集对多模态模型的上下文推理进行基准测试，需要通过食谱中的视觉变化来跟踪实体。我们研究了最近的多模态LLM，并揭示了它们难以从给定的动词的多模态程序数据中预测“什么”和“哪里/用什么”的隐式论元。最后，我们提出了iSRL-Qwen2-VL，它在“什么-隐式”语义角色的F1得分上实现了17%的相对提升，在“哪里/用什么-隐式”语义角色上实现了14.7%的相对提升，超过了GPT-4o。

🔬 方法详解

问题定义：论文旨在解决程序性视频指令中隐式论元预测的问题。现有的语义角色标注（SRL）方法和数据集通常忽略了这些隐式论元，导致模型无法完全理解指令的含义。例如，在烹饪视频中，如果一个步骤中没有明确指出食材加入的位置，模型需要根据上下文（例如，之前的步骤）来推断。

核心思路：论文的核心思路是构建一个包含丰富上下文信息的多模态数据集（Implicit-VidSRL），并利用大型语言模型（LLM）结合视觉信息来预测这些隐式论元。通过提供视频和文本信息，模型可以更好地理解指令的上下文，从而更准确地预测隐式论元。

技术框架：整体框架包含两个主要部分：数据集构建和模型训练/评估。数据集Implicit-VidSRL包含烹饪视频和相应的文本指令，并标注了显式和隐式论元。模型训练阶段，使用多模态LLM（例如，Qwen2-VL）作为基础模型，并针对隐式论元预测任务进行微调。评估阶段，使用F1得分等指标来评估模型在预测隐式论元方面的性能。

关键创新：论文的关键创新在于提出了Implicit-VidSRL数据集，该数据集专门设计用于评估模型在多模态上下文中推理隐式论元的能力。与现有的SRL数据集相比，Implicit-VidSRL更加关注程序性文本中的省略现象，并提供了相应的视觉信息，使得模型可以更好地理解指令的含义。

关键设计：iSRL-Qwen2-VL模型是基于Qwen2-VL进行微调的。具体的技术细节包括：使用特定的prompt工程来引导模型预测隐式论元；使用交叉熵损失函数来优化模型的预测结果；以及使用F1得分作为评估指标来衡量模型的性能。数据集的构建过程中，需要仔细标注隐式论元，并确保标注的一致性和准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的iSRL-Qwen2-VL模型在Implicit-VidSRL数据集上取得了显著的性能提升。具体而言，在“什么-隐式”语义角色的F1得分上，iSRL-Qwen2-VL相对于GPT-4o实现了17%的相对提升；在“哪里/用什么-隐式”语义角色上，实现了14.7%的相对提升。这些结果表明，该模型能够有效地利用多模态上下文信息来预测隐式论元。

🎯 应用场景

该研究成果可应用于智能烹饪助手、机器人流程自动化、教育视频理解等领域。通过准确理解程序性指令中的隐式信息，AI系统能够更好地执行任务、提供更智能的辅助，并提升用户体验。未来，该技术有望扩展到更广泛的领域，例如工业制造、医疗手术等。

📄 摘要（原文）

Procedural texts help AI enhance reasoning about context and action sequences. Transforming these into Semantic Role Labeling (SRL) improves understanding of individual steps by identifying predicate-argument structure like {verb,what,where/with}. Procedural instructions are highly elliptic, for instance, (i) add cucumber to the bowl and (ii) add sliced tomatoes, the second step's where argument is inferred from the context, referring to where the cucumber was placed. Prior SRL benchmarks often miss implicit arguments, leading to incomplete understanding. To address this, we introduce Implicit-VidSRL, a dataset that necessitates inferring implicit and explicit arguments from contextual information in multimodal cooking procedures. Our proposed dataset benchmarks multimodal models' contextual reasoning, requiring entity tracking through visual changes in recipes. We study recent multimodal LLMs and reveal that they struggle to predict implicit arguments of what and where/with from multi-modal procedural data given the verb. Lastly, we propose iSRL-Qwen2-VL, which achieves a 17% relative improvement in F1-score for what-implicit and a 14.7% for where/with-implicit semantic roles over GPT-4o.

Predicting Implicit Arguments in Procedural Video Instructions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理