ScriptHOI: Learning Scripted State Transitions for Open-Vocabulary Human-Object Interaction Detection

📄 arXiv: 2605.05057v1 📥 PDF

作者: Minh Anh Nguyen, Quang Huy Tran, Bao Ngoc Le, SuiYang Guang, Tuan Kiet Pham, Linh Chi Vo

分类: cs.CV

发布日期: 2026-05-06


💡 一句话要点

ScriptHOI:通过学习脚本化状态转移实现开放词汇人-物交互检测

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互检测 开放词汇学习 脚本化状态转移 视觉语言模型 HOI检测

📋 核心要点

  1. 现有开放词汇HOI检测方法易受对象可供性和短语共现影响,忽略了动作执行所需的完整上下文。
  2. ScriptHOI将交互短语分解为多个状态槽,通过建模状态转移来更准确地识别HOI。
  3. 实验表明,ScriptHOI在罕见和未见交互识别方面有显著提升,并减少了假阳性。

📝 摘要(中文)

开放词汇人-物交互(HOI)检测需要识别在训练期间可能未作为标注类别出现的交互短语。最近的视觉-语言HOI检测器通过匹配人-物特征与文本嵌入来改进语义迁移,但它们的预测通常受对象可供性和短语级共现的主导。因此,模型可能会从刀和蛋糕的存在预测“切蛋糕”,而没有验证手、工具、目标、接触模式和对象状态是否共同支持该动作。我们提出了ScriptHOI,一个结构化框架,将每个交互短语表示为软脚本化状态转移。ScriptHOI没有将短语视为单个类token,而是将其分解为身体角色、接触、几何、可供性、运动和对象状态槽。视觉状态tokenizer将每个检测到的人-物对解析为相应的状态token,并且槽式匹配器估计脚本覆盖率和脚本冲突。这两个量校准HOI logits,暴露缺失的视觉证据,并为不完整的注释提供训练约束。为了避免抑制有效但未注释的交互,我们进一步引入了区间部分标签学习,该学习使用脚本导出的概率上下界来约束未注释的候选对象,而不是分配封闭世界的负样本。反事实脚本对比损失交换单个脚本槽,以阻止仅对象快捷方式。在HICO-DET、V-COCO和开放词汇HOI分割上的实验表明,ScriptHOI改进了罕见和未见交互识别,同时显着减少了可供性冲突的假阳性。

🔬 方法详解

问题定义:开放词汇人-物交互(HOI)检测旨在识别训练集中未明确标注的交互类型。现有方法,尤其是基于视觉-语言模型的方法,容易受到对象本身的可供性(affordance)以及短语级别的共现关系的影响,导致模型倾向于根据物体是否存在来推断交互,而忽略了人与物体之间的真实关系和动作的合理性。例如,看到刀和蛋糕就预测“切蛋糕”,而忽略了是否有手持刀具进行切割动作的证据。

核心思路:ScriptHOI的核心思想是将每个交互动作分解为一系列脚本化的状态转移。它不将交互短语视为一个整体,而是将其拆解为多个语义槽,例如身体角色(body-role)、接触(contact)、几何关系(geometry)、可供性(affordance)、运动(motion)和对象状态(object-state)。通过显式地建模这些状态之间的转移关系,ScriptHOI能够更准确地判断一个HOI动作是否发生,并减少对对象可供性的过度依赖。

技术框架:ScriptHOI的整体框架包含以下几个主要模块:1) 视觉状态Tokenizer:将检测到的人-物对解析为对应的状态token,提取视觉特征并映射到各个状态槽。2) 槽式匹配器:估计脚本覆盖率(script coverage)和脚本冲突(script conflict)。脚本覆盖率衡量视觉证据对完整脚本的支持程度,脚本冲突则衡量是否存在与脚本不一致的视觉证据。3) HOI Logit校准:使用脚本覆盖率和脚本冲突来校准HOI的预测logits,从而提高预测的准确性。4) 区间部分标签学习:对于未标注的交互候选,使用脚本导出的概率上下界进行约束,避免将有效的交互错误地标记为负样本。5) 反事实脚本对比损失:通过交换单个脚本槽来生成负样本,鼓励模型学习更细粒度的交互特征,而不是仅仅依赖于对象本身。

关键创新:ScriptHOI的关键创新在于将HOI动作建模为脚本化的状态转移,并引入了脚本覆盖率和脚本冲突的概念来评估视觉证据的完整性和一致性。这种方法能够有效地减少对对象可供性的依赖,并提高对罕见和未见交互的识别能力。此外,区间部分标签学习和反事实脚本对比损失进一步提升了模型的鲁棒性和泛化能力。

关键设计:在实现上,视觉状态Tokenizer可以使用预训练的视觉模型(例如ResNet或ViT)来提取视觉特征。槽式匹配器可以使用注意力机制或相似度度量来计算视觉特征与各个状态槽之间的匹配程度。区间部分标签学习需要根据脚本的逻辑关系来推导未标注候选的概率上下界。反事实脚本对比损失需要精心设计负样本的生成策略,例如随机交换或基于规则交换脚本槽。

📊 实验亮点

ScriptHOI在HICO-DET、V-COCO和开放词汇HOI分割数据集上进行了评估,实验结果表明,ScriptHOI在罕见和未见交互识别方面取得了显著的提升,同时有效地减少了可供性冲突导致的假阳性。具体性能提升数据在论文中有详细展示,相较于现有基线方法,ScriptHOI在多个指标上均有明显优势。

🎯 应用场景

ScriptHOI技术可应用于智能监控、人机交互、机器人导航等领域。例如,在智能监控中,可以更准确地识别异常行为,如盗窃、攻击等。在人机交互中,可以使机器人更好地理解人类的意图,从而提供更自然、更智能的服务。在机器人导航中,可以帮助机器人理解周围环境中的人与物的交互关系,从而更好地规划路径和执行任务。

📄 摘要(原文)

Open-vocabulary human-object interaction (HOI) detection requires recognizing interaction phrases that may not appear as annotated categories during training. Recent vision-language HOI detectors improve semantic transfer by matching human-object features with text embeddings, but their predictions are often dominated by object affordance and phrase-level co-occurrence. As a result, a model may predict \textit{cut cake} from the presence of a knife and a cake without verifying whether the hand, tool, target, contact pattern, and object state jointly support the action. We propose \textbf{ScriptHOI}, a structured framework that represents each interaction phrase as a soft scripted state transition. Rather than treating a phrase as a single class token, ScriptHOI decomposes it into body-role, contact, geometry, affordance, motion, and object-state slots. A visual state tokenizer parses each detected human-object pair into corresponding state tokens, and a slot-wise matcher estimates both script coverage and script conflict. These two quantities calibrate HOI logits, expose missing visual evidence, and provide training constraints for incomplete annotations. To avoid suppressing valid but unannotated interactions, we further introduce interval partial-label learning, which constrains unannotated candidates with script-derived lower and upper probability bounds instead of assigning closed-world negatives. A counterfactual script contrast loss swaps individual script slots to discourage object-only shortcuts. Experiments on HICO-DET, V-COCO, and open-vocabulary HOI splits show that ScriptHOI improves rare and unseen interaction recognition while substantially reducing affordance-conflict false positives.