Prototype Embedding Optimization for Human-Object Interaction Detection in Livestreaming

作者: Menghui Zhang, Jing Zhang, Lin Chen, Li Zhuo

分类: cs.CV

发布日期: 2025-05-28 (更新: 2025-08-04)

备注: Accepted by IEEE MMSP 2025

💡 一句话要点

提出原型嵌入优化方法PeO-HOI，解决直播场景下HOI检测中的对象偏见问题

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 人-物交互检测 HOI检测 直播场景 对象偏见 原型嵌入优化

📋 核心要点

现有HOI检测方法在直播场景中存在对象偏见，即过度关注物体本身而忽略与主播的交互。
提出原型嵌入优化(PeO-HOI)方法，通过优化HO对的嵌入表示来减轻对象偏见的影响。
在VidHOI和BJUT-HOI数据集上验证了PeO-HOI的有效性，显著提升了HOI检测精度。

📝 摘要（中文）

直播通常涉及主播与物体之间的互动，这对于理解和管理网络内容至关重要。虽然人-物交互(HOI)检测在通用视频下游任务中取得了一些进展，但当应用于识别直播中主播与不同物体之间的交互行为时，它往往过于关注物体而忽略了它们与主播的交互，从而导致对象偏见。为了解决这个问题，我们提出了一种用于人-物交互检测的原型嵌入优化方法(PeO-HOI)。首先，使用目标检测和跟踪技术对直播进行预处理，以提取人-物(HO)对的特征。然后，采用原型嵌入优化来减轻对象偏见对HOI的影响。最后，在建模HO对之间的时空上下文之后，通过预测头获得HOI检测结果。实验结果表明，所提出的PeO-HOI方法在公开数据集VidHOI上的检测精度分别为37.19%@full、51.42%@non-rare、26.20%@rare，在自建数据集BJUT-HOI上的检测精度分别为45.13%@full、62.78%@non-rare和30.37%@rare，有效地提高了直播中的HOI检测性能。

🔬 方法详解

问题定义：论文旨在解决直播场景下人-物交互(HOI)检测中的对象偏见问题。现有HOI检测方法在应用于直播场景时，容易过度关注物体本身，而忽略了主播与物体之间的交互关系，导致检测结果偏向于频繁出现的物体，降低了对罕见但重要的交互行为的识别能力。

核心思路：论文的核心思路是通过原型嵌入优化来减轻对象偏见的影响。具体来说，通过学习HOI的原型嵌入，并优化HO对的嵌入表示，使得模型更加关注人与物体之间的交互关系，而不是仅仅依赖于物体的特征。这样可以减少模型对常见物体的过度依赖，提高对罕见交互行为的识别能力。

技术框架：PeO-HOI方法的整体框架包括以下几个主要步骤：1) 使用目标检测和跟踪技术对直播视频进行预处理，提取人-物(HO)对；2) 对提取的HO对进行特征提取，得到HO对的嵌入表示；3) 采用原型嵌入优化方法，学习HOI的原型嵌入，并优化HO对的嵌入表示，以减轻对象偏见；4) 建模HO对之间的时空上下文关系；5) 使用预测头对HOI进行分类和定位。

关键创新：该论文最重要的技术创新点在于提出了原型嵌入优化(PeO)方法，用于减轻HOI检测中的对象偏见。与现有方法不同，PeO方法不是直接对模型进行正则化或调整损失函数，而是通过优化HO对的嵌入表示，使得模型更加关注人与物体之间的交互关系，从而有效地减少了对象偏见的影响。

关键设计：在原型嵌入优化方面，论文可能采用了对比学习或度量学习的思想，通过构建正负样本对，并设计合适的损失函数，来学习HOI的原型嵌入。具体的损失函数设计、原型数量的选择、以及优化算法的选择等，都是影响PeO方法性能的关键因素。此外，时空上下文建模的具体方法，例如使用LSTM或Transformer等序列模型，也会对最终的HOI检测结果产生影响。

📊 实验亮点

实验结果表明，提出的PeO-HOI方法在VidHOI数据集上，full、non-rare和rare的检测精度分别达到37.19%、51.42%和26.20%。在自建的BJUT-HOI数据集上，full、non-rare和rare的检测精度分别达到45.13%、62.78%和30.37%。相较于其他方法，PeO-HOI在各个指标上均取得了显著提升，尤其是在rare交互行为的检测上，表明该方法能够有效缓解对象偏见问题。

🎯 应用场景

该研究成果可应用于直播内容理解与监管，例如自动识别违规互动行为（如主播与危险物品互动），提升直播平台的内容安全。此外，该技术还可扩展到其他人机交互场景，如智能家居、辅助机器人等，帮助设备更好地理解人类意图。

📄 摘要（原文）

Livestreaming often involves interactions between streamers and objects, which is critical for understanding and regulating web content. While human-object interaction (HOI) detection has made some progress in general-purpose video downstream tasks, when applied to recognize the interaction behaviors between a streamer and different objects in livestreaming, it tends to focuses too much on the objects and neglects their interactions with the streamer, which leads to object bias. To solve this issue, we propose a prototype embedding optimization for human-object interaction detection (PeO-HOI). First, the livestreaming is preprocessed using object detection and tracking techniques to extract features of the human-object (HO) pairs. Then, prototype embedding optimization is adopted to mitigate the effect of object bias on HOI. Finally, after modelling the spatio-temporal context between HO pairs, the HOI detection results are obtained by the prediction head. The experimental results show that the detection accuracy of the proposed PeO-HOI method has detection accuracies of 37.19%@full, 51.42%@non-rare, 26.20%@rare on the publicly available dataset VidHOI, 45.13%@full, 62.78%@non-rare and 30.37%@rare on the self-built dataset BJUT-HOI, which effectively improves the HOI detection performance in livestreaming.

Prototype Embedding Optimization for Human-Object Interaction Detection in Livestreaming

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理