B-RIGHT: Benchmark Re-evaluation for Integrity in Generalized Human-Object Interaction Testing

📄 arXiv: 2501.16724v1 📥 PDF

作者: Yoojin Jang, Junsu Kim, Hayeon Kim, Eun-ki Lee, Eun-sol Kim, Seungryul Baek, Jaejun Yoo

分类: cs.CV

发布日期: 2025-01-28


💡 一句话要点

B-RIGHT:用于广义人-物交互测试的完整性基准再评估

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互 HOI检测 类别平衡 数据集构建 基准再评估

📋 核心要点

  1. 现有HOI基准数据集(如HICO-DET)存在严重的类别不平衡问题,导致模型评估结果偏差。
  2. 论文提出B-RIGHT数据集,通过平衡算法和自动生成-过滤过程,实现HOI类别的平衡。
  3. 实验表明,使用B-RIGHT评估模型能显著降低分数方差,并改变模型性能排名,提供更可靠的评估。

📝 摘要(中文)

人-物交互(HOI)是人工智能领域的一个重要问题,旨在理解涉及人类与物体之间复杂关系的视觉世界。然而,现有的基准数据集,如HICO-DET,面临着以下局限性:(1)严重的类别不平衡;(2)某些类别的训练集和测试集数量不一致。这些问题可能导致评估过程中模型性能的虚高或低估,最终损害评估分数的可靠性。本文提出了一种系统的方法来开发一个新的类别平衡数据集,即用于广义人-物交互测试完整性基准再评估(B-RIGHT),以解决这些不平衡问题。B-RIGHT通过利用平衡算法和自动生成-过滤过程来实现类别平衡,确保每个HOI类别的实例数量相等。此外,我们设计了一个平衡的零样本测试集,以系统地评估模型在未见场景下的表现。使用B-RIGHT重新评估现有模型显示,与传统的HICO-DET相比,分数方差显著降低,性能排名也发生了变化。我们的实验表明,在平衡条件下进行评估可以确保更可靠和公平的模型比较。

🔬 方法详解

问题定义:现有的人-物交互(HOI)检测基准,如HICO-DET,存在严重的类别不平衡问题。这意味着某些HOI类别的样本数量远多于其他类别,导致模型在训练过程中更容易学习到常见类别,而在罕见类别上的表现不佳。这种不平衡性使得模型评估结果产生偏差,无法真实反映模型在所有HOI类别上的泛化能力。现有方法无法有效解决这种类别不平衡带来的评估偏差问题。

核心思路:论文的核心思路是通过构建一个类别平衡的HOI数据集B-RIGHT,来消除类别不平衡对模型评估的影响。B-RIGHT数据集的设计目标是确保每个HOI类别都具有相同数量的实例,从而避免模型在训练和评估过程中受到类别频率的影响。通过在B-RIGHT上重新评估现有模型,可以更准确地了解模型在各个HOI类别上的性能,并进行更公平的模型比较。

技术框架:B-RIGHT的构建主要包含两个阶段:数据平衡和零样本测试集设计。数据平衡阶段,首先利用平衡算法生成候选HOI实例,然后通过自动生成-过滤过程筛选出高质量的实例,确保每个HOI类别都具有足够数量的样本。零样本测试集设计阶段,构建一个平衡的零样本测试集,用于评估模型在未见场景下的泛化能力。整个流程旨在创建一个类别平衡且具有代表性的HOI数据集,用于更可靠的模型评估。

关键创新:该论文的关键创新在于提出了一个系统性的方法来构建类别平衡的HOI数据集B-RIGHT。与以往的研究不同,B-RIGHT不仅关注训练集的平衡,还设计了一个平衡的零样本测试集,从而更全面地评估模型在各种场景下的泛化能力。此外,论文还提出了一种自动生成-过滤过程,用于高效地生成高质量的HOI实例,从而降低了数据收集和标注的成本。

关键设计:B-RIGHT数据集的关键设计包括:(1) 使用特定的平衡算法来生成候选HOI实例,具体算法未知;(2) 设计自动生成-过滤过程,过滤掉低质量或不相关的HOI实例,具体过滤规则未知;(3) 构建平衡的零样本测试集,确保每个HOI类别在测试集中都具有相同数量的样本,具体实现方式未知。论文中没有明确给出损失函数和网络结构的细节,因为B-RIGHT主要关注数据集的构建和评估,而不是提出新的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

使用B-RIGHT重新评估现有模型显示,与传统的HICO-DET相比,分数方差显著降低,这表明B-RIGHT能够提供更稳定的模型评估结果。此外,模型在B-RIGHT上的性能排名也发生了变化,说明B-RIGHT能够更准确地反映模型在各个HOI类别上的泛化能力。具体的性能提升数据未知,但实验结果表明,在平衡条件下进行评估可以确保更可靠和公平的模型比较。

🎯 应用场景

该研究成果可广泛应用于机器人、智能监控、自动驾驶等领域。通过更准确地理解人与物体之间的交互关系,可以提升机器人与人类协作的能力,提高智能监控系统的事件检测精度,增强自动驾驶系统的场景理解能力。未来,该研究有望推动人工智能在实际应用中的发展,实现更智能、更安全的人机交互。

📄 摘要(原文)

Human-object interaction (HOI) is an essential problem in artificial intelligence (AI) which aims to understand the visual world that involves complex relationships between humans and objects. However, current benchmarks such as HICO-DET face the following limitations: (1) severe class imbalance and (2) varying number of train and test sets for certain classes. These issues can potentially lead to either inflation or deflation of model performance during evaluation, ultimately undermining the reliability of evaluation scores. In this paper, we propose a systematic approach to develop a new class-balanced dataset, Benchmark Re-evaluation for Integrity in Generalized Human-object Interaction Testing (B-RIGHT), that addresses these imbalanced problems. B-RIGHT achieves class balance by leveraging balancing algorithm and automated generation-and-filtering processes, ensuring an equal number of instances for each HOI class. Furthermore, we design a balanced zero-shot test set to systematically evaluate models on unseen scenario. Re-evaluating existing models using B-RIGHT reveals substantial the reduction of score variance and changes in performance rankings compared to conventional HICO-DET. Our experiments demonstrate that evaluation under balanced conditions ensure more reliable and fair model comparisons.