EgoPressDiff: Multimodal Video Diffusion for Egocentric UV-Domain Hand-Pressure Estimation

📄 arXiv: 2606.06872v1 📥 PDF

作者: Yuan Zeng, Zilue Gao, Yujia Shi, Zongqing Lu, Wenming Yang, QingMin Liao

分类: cs.CV, cs.AI

发布日期: 2026-06-05

备注: Accepted to IEEE ICASSP 2026

DOI: 10.1109/ICASSP55912.2026.11463813

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出EgoPressDiff以解决手部接触压力估计问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手部接触压力 自我中心视角 多模态条件 视频扩散 深度学习 特征融合 增强现实 虚拟现实

📋 核心要点

  1. 现有方法在处理手部接触压力时,常常面临量化误差和时间不一致性的问题。
  2. EgoPressDiff通过多模态条件策略,结合PoseNet和Vertex Encoder,有效提取手部姿态和3D网格特征。
  3. 在EgoPressure自我视角设置下,EgoPressDiff在体积IoU上提升超过34%,同时降低MAE,保持高时间准确性。

📝 摘要(中文)

从自我中心视角估计手部表面接触压力对于增强现实/虚拟现实设备、机器人模仿和人体工程学分析至关重要。现有方法通常将压力信号离散化并独立处理帧,导致量化误差和时间不一致性。本文提出了EgoPressDiff,一种条件视频扩散框架,能够从视觉输入生成UV压力图。我们的方法核心是多模态条件策略,引入PoseNet和Vertex Encoder高效提取手部姿态和3D网格顶点特征。这些信号与深度信息共同指导生成过程,确保压力场在物理上是合理的。通过在EgoPressure自我视角设置下评估,EgoPressDiff在体积IoU上相较于先前基线提升超过34%,同时降低MAE并保持高时间准确性。

🔬 方法详解

问题定义:本文旨在解决从自我中心视角估计手部接触压力的问题。现有方法通过离散化压力信号并独立处理帧,导致量化误差和时间不一致性,影响了估计的准确性。

核心思路:EgoPressDiff的核心思路是采用条件视频扩散框架,通过多模态条件策略来生成UV压力图。通过结合手部姿态和3D网格顶点特征,确保生成的压力场在物理上是合理的。

技术框架:该方法的整体架构包括PoseNet和Vertex Encoder两个主要模块,前者用于提取手部姿态特征,后者用于提取3D网格顶点特征。深度信息也被整合进生成过程,以增强生成的压力图的准确性。

关键创新:EgoPressDiff的关键创新在于引入了多模态条件策略和Distribution-Calibrated Spatial Layer,后者用于对不同特征的统计属性进行校准,从而提高特征融合的有效性。与现有方法相比,这种设计显著减少了量化误差和时间不一致性。

关键设计:在技术细节上,EgoPressDiff采用了特定的损失函数来优化生成的压力图,并通过精细的参数设置来确保模型的稳定性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EgoPressDiff在EgoPressure自我视角设置下的实验结果显示,体积IoU相较于先前基线提升超过34%,同时MAE显著降低,且保持了高时间准确性,展现出其在手部接触压力估计中的优越性能。

🎯 应用场景

EgoPressDiff的研究成果在增强现实和虚拟现实设备中具有广泛的应用潜力,能够提升用户体验和交互精度。此外,该技术在机器人模仿和人体工程学分析中也能发挥重要作用,帮助实现更自然的交互和更科学的设计。

📄 摘要(原文)

Estimating hand-surface contact pressure from an egocentric view is crucial for AR/VR devices, robotic imitation, and ergonomic analysis. Existing methods often discretize pressure signal and process frames independently, leading to quantization errors and temporal inconsistencies. We present \emph{EgoPressDiff}, a conditional video diffusion framework that generates UV-pressure maps from visual input. The core of our approach is a multi-modal conditioning strategy, introducing a PoseNet and a Vertex Encoder to efficiently extract features from hand pose and 3D mesh vertices. These signals, along with depth information, guide the generative process to ensure the pressure fields are physically grounded. To effectively fuse these heterogeneous features, we further propose a Distribution-Calibrated Spatial Layer, which aligns their statistical properties before combination. Evaluated on the EgoPressure ego-view setting, EgoPressDiff achieves state-of-the-art results, improving Volumetric IoU by over 34\% relative to prior baseline, while reducing MAE and maintaining high temporal accuracy. Our project page is at https://egopressdiff.github.io/.