Hoi2Threat: An Interpretable Threat Detection Method for Human Violence Scenarios Guided by Human-Object Interaction

📄 arXiv: 2503.10508v3 📥 PDF

作者: Yuhan Wang, Cheng Liu, Daou Zhang, Zihan Zhao, Jinyang Chen, Purui Dong, Zuyuan Yu, Ziru Wang, Weichao Wu

分类: cs.CV

发布日期: 2025-03-13 (更新: 2025-07-28)


💡 一句话要点

Hoi2Threat:基于人-物交互的、可解释的人类暴力场景威胁检测方法

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 威胁检测 人-物交互 可解释性 多模态融合 行为识别

📋 核心要点

  1. 现有威胁检测方法缺乏可解释性,且对语义的理解存在偏差,限制了其在实际场景中的应用。
  2. Hoi2Threat利用人-物交互对(HOI-pairs)指导语言生成,增强模型对关键实体及其行为交互的语义建模能力。
  3. 实验结果表明,Hoi2Threat在信息正确性、行为映射准确性和威胁细节导向等指标上均有显著提升。

📝 摘要(中文)

针对公共安全日益增长的需求,高风险场景下的自动威胁检测变得越来越重要。然而,现有方法普遍存在推理过程不可解释和语义理解存在偏差的问题,严重限制了它们在实际部署中的可靠性。为了解决这些挑战,本文提出了一种基于人-物交互对(HOI-pairs)的威胁检测方法,名为Hoi2Threat。该方法基于细粒度的多模态TD-Hoi数据集,通过使用结构化的HOI标签来指导语言生成,从而增强模型对关键实体及其行为交互的语义建模能力。此外,还设计了一组用于评估文本响应质量的指标,旨在系统地衡量模型在威胁解释过程中的表示准确性和可理解性。实验结果表明,Hoi2Threat在多个威胁检测任务中取得了显著提升,尤其是在信息正确性(CoI)、行为映射准确性(BMA)和威胁细节导向(TDO)等核心指标上,与Gemma3(4B)相比分别提升了5.08、5.04和4.76,以及7.10%、6.80%和2.63%。这些结果全面验证了该方法在语义理解、实体行为映射和可解释性方面的优势。

🔬 方法详解

问题定义:现有威胁检测方法在推理过程中缺乏可解释性,难以理解模型做出判断的原因。同时,这些方法在语义理解方面存在偏差,无法准确捕捉人类暴力行为中的细微线索,导致检测精度不高。这些问题严重阻碍了威胁检测系统在实际场景中的部署和应用。

核心思路:Hoi2Threat的核心思路是利用人-物交互(HOI)信息来指导威胁检测。通过将场景中的人和物体以及他们之间的交互关系作为关键信息,模型可以更准确地理解场景的语义,从而做出更可靠的威胁判断。此外,通过生成自然语言解释,增强模型的可解释性。

技术框架:Hoi2Threat方法主要包含以下几个模块:1) HOI检测模块:用于检测场景中的人和物体以及他们之间的交互关系。2) 语言生成模块:利用HOI信息生成对场景的自然语言描述,突出潜在的威胁信息。3) 威胁评估模块:基于HOI信息和语言描述,评估场景中是否存在威胁。整个流程通过多模态融合,提升威胁检测的准确性和可解释性。

关键创新:Hoi2Threat的关键创新在于将HOI信息引入到威胁检测任务中,并利用结构化的HOI标签来指导语言生成。这使得模型能够更准确地理解场景的语义,并生成更具解释性的威胁描述。与现有方法相比,Hoi2Threat不仅提高了威胁检测的准确率,还增强了模型的可解释性。

关键设计:Hoi2Threat使用了细粒度的多模态TD-Hoi数据集进行训练,该数据集包含丰富的人-物交互信息。在语言生成模块中,使用了Transformer模型,并设计了一组用于评估文本响应质量的指标,包括信息正确性(CoI)、行为映射准确性(BMA)和威胁细节导向(TDO)。这些指标用于指导模型的训练,使其能够生成更准确、更具解释性的威胁描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Hoi2Threat在信息正确性(CoI)、行为映射准确性(BMA)和威胁细节导向(TDO)等核心指标上,与Gemma3(4B)相比分别提升了5.08、5.04和4.76,以及7.10%、6.80%和2.63%。这些显著的性能提升验证了该方法在语义理解、实体行为映射和可解释性方面的优势。

🎯 应用场景

Hoi2Threat可应用于各种公共安全领域,例如智能监控、安防巡检和犯罪预防。该方法能够自动检测高风险场景中的潜在威胁,并提供可解释的威胁描述,帮助安保人员及时采取行动,有效预防暴力事件的发生。未来,该研究可进一步扩展到其他安全领域,例如网络安全和金融安全。

📄 摘要(原文)

In light of the mounting imperative for public security, the necessity for automated threat detection in high-risk scenarios is becoming increasingly pressing. However, existing methods generally suffer from the problems of uninterpretable inference and biased semantic understanding, which severely limits their reliability in practical deployment. In order to address the aforementioned challenges, this article proposes a threat detection method based on human-object interaction pairs (HOI-pairs), Hoi2Threat. This method is based on the fine-grained multimodal TD-Hoi dataset, enhancing the model's semantic modeling ability for key entities and their behavioral interactions by using structured HOI tags to guide language generation. Furthermore, a set of metrics is designed for the evaluation of text response quality, with the objective of systematically measuring the model's representation accuracy and comprehensibility during threat interpretation. The experimental results have demonstrated that Hoi2Threat attains substantial enhancement in several threat detection tasks, particularly in the core metrics of Correctness of Information (CoI), Behavioral Mapping Accuracy (BMA), and Threat Detailed Orientation (TDO), which are 5.08, 5.04, and 4.76, and 7.10%, 6.80%, and 2.63%, respectively, in comparison with the Gemma3 (4B). The aforementioned results provide comprehensive validation of the merits of this approach in the domains of semantic understanding, entity behavior mapping, and interpretability.