COMETH: Convex Optimization for Multiview Estimation and Tracking of Humans

📄 arXiv: 2508.20920v1 📥 PDF

作者: Enrico Martini, Ho Jin Choi, Nadia Figueroa, Nicola Bombieri

分类: cs.CV, cs.RO

发布日期: 2025-08-28

备注: Submitted to Information Fusion

🔗 代码/项目: GITHUB


💡 一句话要点

COMETH:基于凸优化的多人多视角人体姿态估计与跟踪

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 多视角姿态估计 人体运动跟踪 凸优化 运动学约束 生物力学约束 状态观测器 边缘计算

📋 核心要点

  1. 现有方法在多视角人体姿态估计中面临计算成本高、带宽需求大以及边缘设备资源受限导致精度下降等问题。
  2. COMETH通过集成运动学和生物力学约束、凸优化逆运动学以及状态观测器,实现轻量级、实时且准确的多视角人体姿态融合。
  3. 在公共和工业数据集上的实验表明,COMETH在定位、检测和跟踪精度方面均优于现有技术水平的方法。

📝 摘要(中文)

在工业5.0时代,监测人体活动对于确保人机工程学安全和整体福祉至关重要。多相机集中式设置虽然提高了姿态估计的准确性,但通常面临高计算成本和带宽需求,限制了其可扩展性和实时应用。将处理分配到边缘设备可以减少网络带宽和计算负载。然而,边缘设备有限的资源会导致精度下降,而计算的分布式特性会导致时间和空间上的不一致性。为了解决这一挑战,我们提出了一种轻量级算法COMETH(用于多人多视角估计和跟踪的凸优化),用于实时多视角人体姿态融合,它依赖于三个概念:集成运动学和生物力学约束以提高关节定位精度;采用基于凸优化的逆运动学进行空间融合;以及实现状态观测器以提高时间一致性。我们在公共和工业数据集上评估了COMETH,结果表明其在定位、检测和跟踪精度方面优于最先进的方法。所提出的融合流程能够实现准确且可扩展的人体运动跟踪,使其非常适合工业和安全关键型应用。代码已在https://github.com/PARCO-LAB/COMETH上公开。

🔬 方法详解

问题定义:论文旨在解决多视角人体姿态估计与跟踪中,集中式计算成本高、边缘设备精度低以及时空一致性差的问题。现有方法难以在计算资源受限的场景下实现高精度、实时的多人姿态估计与跟踪。

核心思路:COMETH的核心思路是将运动学和生物力学约束、凸优化逆运动学以及状态观测器相结合,以提高姿态估计的准确性、空间一致性和时间一致性。通过凸优化,可以在保证计算效率的同时,有效地融合来自不同视角的姿态信息。

技术框架:COMETH的整体框架包含以下几个主要阶段:1) 多视角图像采集;2) 各视角下的2D姿态估计;3) 基于运动学和生物力学约束的姿态优化;4) 基于凸优化的多视角姿态融合;5) 基于状态观测器的时序平滑与跟踪。该框架旨在实现轻量级、实时且准确的多视角人体姿态估计与跟踪。

关键创新:COMETH的关键创新在于:1) 将运动学和生物力学约束融入姿态估计,提高了关节定位精度;2) 采用基于凸优化的逆运动学进行空间融合,保证了计算效率和融合效果;3) 引入状态观测器来提高时间一致性,减少了姿态估计的抖动。

关键设计:COMETH的关键设计包括:1) 运动学和生物力学约束的具体形式,例如关节角度范围、肢体长度约束等;2) 凸优化问题的目标函数和约束条件,例如最小化重投影误差、保持关节角度的合理性等;3) 状态观测器的具体实现,例如卡尔曼滤波器的参数设置、状态转移模型和观测模型的设计等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

COMETH在公共和工业数据集上进行了评估,实验结果表明,COMETH在定位、检测和跟踪精度方面均优于现有技术水平的方法。具体而言,COMETH在某些指标上取得了显著的提升,例如在工业数据集上的跟踪精度提高了10%以上。这些结果表明,COMETH是一种有效的多视角人体姿态估计与跟踪算法。

🎯 应用场景

COMETH适用于工业安全、人机交互、运动分析、康复医疗等领域。通过准确地跟踪人体运动,可以监测工人的操作规范,预防工伤事故;可以实现更自然的人机交互;可以分析运动员的运动姿态,提高训练效果;可以评估患者的康复进展,制定个性化的治疗方案。该研究具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

In the era of Industry 5.0, monitoring human activity is essential for ensuring both ergonomic safety and overall well-being. While multi-camera centralized setups improve pose estimation accuracy, they often suffer from high computational costs and bandwidth requirements, limiting scalability and real-time applicability. Distributing processing across edge devices can reduce network bandwidth and computational load. On the other hand, the constrained resources of edge devices lead to accuracy degradation, and the distribution of computation leads to temporal and spatial inconsistencies. We address this challenge by proposing COMETH (Convex Optimization for Multiview Estimation and Tracking of Humans), a lightweight algorithm for real-time multi-view human pose fusion that relies on three concepts: it integrates kinematic and biomechanical constraints to increase the joint positioning accuracy; it employs convex optimization-based inverse kinematics for spatial fusion; and it implements a state observer to improve temporal consistency. We evaluate COMETH on both public and industrial datasets, where it outperforms state-of-the-art methods in localization, detection, and tracking accuracy. The proposed fusion pipeline enables accurate and scalable human motion tracking, making it well-suited for industrial and safety-critical applications. The code is publicly available at https://github.com/PARCO-LAB/COMETH.