iPay: Integrated Payment Action Recognition via Multimodal Networks and Adaptive Spatial Prior Learning

📄 arXiv: 2605.10732v1 📥 PDF

作者: Kaicong Huang, Weiheng Oh, Thomas Guggisberg, Ruimin Ke

分类: cs.CV, cs.AI

发布日期: 2026-05-11

🔗 代码/项目: GITHUB


💡 一句话要点

提出iPay多模态集成框架,通过自适应空间先验学习实现车载场景下的精准支付动作识别。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动作识别 多模态学习 图卷积网络 车载监控 边缘计算 专家混合模型

📋 核心要点

  1. 现有方法在车载复杂监控环境下鲁棒性差,且过度依赖手工特征,难以捕捉支付动作中细微的局部相对运动。
  2. 提出iPay多模态专家混合架构,通过RGB与骨架流的深度融合,结合空间差异判别器显式建模手部与支付终端的交互。
  3. 在真实车载数据集上达到83.45%的识别准确率,在保证计算效率的同时,显著优于现有的主流动作识别算法。

📝 摘要(中文)

自动交通支付分析对于票务审计和乘客行为分析至关重要,但目前仍依赖人工检查。现有的视觉和骨架方法在嘈杂的车载监控环境下表现脆弱,且往往依赖泛化性较差的手工特征。本文提出iPay,一个专为车载监控设计的集成支付动作识别框架。iPay采用多模态专家混合架构,包含四个紧密耦合的流:聚焦局部证据的RGB专家流、基于图卷积建模关节运动的骨架专家流、实现跨模态特征增强的双注意力融合流,以及显式建模手部与锚点相对运动的先验驱动空间差异判别器(SDD)。通过与当地交通机构合作,作者收集了超过55小时的车载监控视频,构建了包含500多个支付片段的数据集。实验表明,iPay在保持计算效率的同时,达到了83.45%的识别准确率,非常适合边缘设备部署。

🔬 方法详解

问题定义:论文旨在解决车载监控场景下支付动作识别的鲁棒性问题。现有方法在处理复杂背景噪声时,RGB特征缺乏时间连续性,而骨架特征虽擅长建模全局时空依赖,却难以捕捉支付动作中关键的局部细微交互。

核心思路:采用多模态专家混合(MoE)策略,利用RGB流提取细粒度空间特征,利用骨架流捕捉关节运动轨迹,并通过双注意力机制实现跨模态特征的互补增强,从而实现对支付动作的精准建模。

技术框架:整体架构由四个流组成:1. RGB专家流,通过区域聚焦计算提取局部证据;2. 骨架专家流,利用图卷积网络(GCN)建模人体关节运动;3. 双注意力融合流,实现骨架到RGB的时间迁移及RGB到骨架的空间增强;4. 空间差异判别器(SDD),专门用于建模手部与支付终端的相对运动。

关键创新:引入了先验驱动的空间差异判别器(SDD),该模块显式地将“手部-锚点”的相对运动作为判别特征,有效解决了传统动作识别模型对特定交互动作敏感度不足的问题。

关键设计:模型设计强调轻量化与高效性,通过紧密耦合的专家流结构,在提升识别精度的同时,确保了模型在边缘计算设备上的部署可行性,并针对车载监控的特殊视角进行了针对性优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

iPay在自建的包含55小时车载监控视频及500+支付片段的数据集上进行了验证。实验结果显示,iPay的识别准确率达到83.45%,显著优于现有的基准方法。同时,该模型在保持高精度的前提下,展现出优异的计算效率,证明了其在资源受限的边缘设备上进行实时部署的潜力。

🎯 应用场景

该研究主要应用于公共交通系统的自动化票务审计与乘客行为分析。通过在车载监控系统中部署iPay,交通运营方可实时监测支付行为,减少逃票现象,优化运营效率。此外,该技术还可扩展至零售自助结账、智能安防及人机交互等需要精细化动作识别的边缘计算场景。

📄 摘要(原文)

Automated transit payment analysis is vital for scalable fare auditing and passenger analytics, yet practice still relies on limited manual inspection. Prior vision- and skeleton-based methods remain brittle under noisy onboard surveillance and often depend on poorly generalizable handcrafted features. Building on the success of graph convolutional networks in human action recognition, we observe that skeleton features excel at modeling global spatiotemporal dependencies but tend to underemphasize the subtle local relative motions that distinguish payment actions. In contrast, RGB features preserve fine-grained spatial details yet often lack reliable temporal continuity in surveillance footage. To bridge both system-level deployment needs and model-level design challenges, we present iPay, an integrated payment action recognition framework for onboard transit surveillance system. iPay adopts a multimodal mixture-of-experts architecture with four tightly coupled streams: (1) an RGB expert stream emphasizing local evidence via region-focused computation; (2) a skeleton expert stream modeling articulated motion with a graph convolutional backbone; (3) a dual-attention fusion stream enabling skeleton-to-RGB temporal transfer and RGB-to-skeleton spatial enhancement; and (4) a prior-driven Spatial Difference Discriminator (SDD) that explicitly models hand-to-anchor relative motion to improve task-specific discriminability. We also collaborate with local transit agencies to collect over 55 hours of real onboard surveillance footage, yielding 500+ payment clips. Experiments show that iPay outperforms prior methods and achieves 83.45\% recognition accuracy with competitive computational efficiency, making it suitable for edge deployment. Code is available at https://github.com/ccoopq/iPay.