Geo-Sign: Hyperbolic Contrastive Regularisation for Geometrically Aware Sign Language Translation
作者: Edward Fish, Richard Bowden
分类: cs.CV, cs.LG
发布日期: 2025-05-30 (更新: 2025-10-28)
备注: Accepted to NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
Geo-Sign:利用双曲对比正则化提升几何感知的手语翻译性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手语翻译 双曲几何 骨骼表示 对比学习 时空图卷积网络
📋 核心要点
- 现有手语翻译方法主要集中于提升大型语言模型对特征的表征能力,忽略了骨骼表示本身的几何属性。
- Geo-Sign利用双曲几何建模手语运动学中的层次结构,通过将骨骼特征投影到庞加莱球模型中,增强特征的区分性。
- 提出的双曲投影层、Fréchet均值聚合和双曲空间对比损失,作为正则化项提升端到端翻译框架的性能。
📝 摘要(中文)
本文提出Geo-Sign,一种利用双曲几何特性来建模手语运动学内在层次结构的方法,旨在提升手语翻译(SLT)中骨骼表示的几何属性。通过将时空图卷积网络(ST-GCNs)提取的骨骼特征投影到庞加莱球模型中,Geo-Sign旨在创建更具区分性的嵌入,尤其针对精细的动作,如手指的运动。论文引入了一个双曲投影层、一个加权Fréchet均值聚合方案,以及一个直接在双曲空间中操作的几何对比损失。这些组件被集成到一个端到端翻译框架中作为正则化函数,以增强语言模型中的表示。实验结果表明,双曲几何具有改善手语翻译骨骼表示的潜力,在保护隐私和提高计算效率的同时,优于最先进的RGB方法。
🔬 方法详解
问题定义:现有的手语翻译方法主要关注提升语言模型对特征的表征能力,而忽略了骨骼表示本身所蕴含的几何信息,尤其是在捕捉精细的手部动作(如手指运动)方面存在不足。这些方法难以有效建模手语运动的层次结构,导致翻译性能受限。
核心思路:论文的核心思路是利用双曲几何的特性来建模手语运动的层次结构。双曲空间能够更好地表示层级关系,因此将骨骼特征嵌入到双曲空间中,可以更有效地捕捉手语动作的内在结构,从而提升翻译性能。通过在双曲空间中进行操作,可以更好地处理手语中不同层级的运动信息,例如手势的大幅度运动和手指的精细运动。
技术框架:Geo-Sign的整体框架包括以下几个主要步骤:首先,使用时空图卷积网络(ST-GCNs)提取骨骼特征。然后,通过一个双曲投影层将这些特征投影到庞加莱球模型中。接着,使用加权Fréchet均值聚合方案来聚合特征。最后,在双曲空间中计算几何对比损失,并将其作为正则化项添加到端到端翻译框架中。整个框架以端到端的方式进行训练,以优化翻译性能。
关键创新:该论文的关键创新在于将双曲几何引入到手语翻译的骨骼表示中。具体来说,包括以下几个方面:1) 提出了双曲投影层,用于将欧氏空间的骨骼特征投影到双曲空间中。2) 提出了加权Fréchet均值聚合方案,用于在双曲空间中聚合特征。3) 提出了几何对比损失,用于在双曲空间中优化特征表示。与现有方法相比,Geo-Sign能够更好地捕捉手语动作的层次结构,从而提升翻译性能。
关键设计:双曲投影层使用一个可学习的线性变换,将欧氏空间的特征映射到双曲空间的切平面上,然后使用指数映射将切平面上的向量映射到庞加莱球模型中。加权Fréchet均值聚合方案使用注意力机制来学习不同特征的权重,然后计算加权平均值。几何对比损失使用双曲距离来衡量不同样本之间的相似度,并鼓励相似的样本在双曲空间中更接近,不相似的样本更远离。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Geo-Sign在手语翻译任务上取得了显著的性能提升,超越了现有的基于RGB的方法。该方法在多个数据集上进行了评估,结果显示,Geo-Sign在BLEU等指标上均优于其他基线方法,证明了双曲几何在手语翻译中的有效性。同时,该方法在保护隐私和提高计算效率方面也具有优势。
🎯 应用场景
Geo-Sign具有广泛的应用前景,包括在线手语翻译、手语教学、人机交互等领域。该方法可以应用于视频会议、教育平台等场景,帮助听力障碍人士更好地进行交流和学习。此外,该方法还可以用于开发智能助手,使其能够理解和响应手语指令,从而提升人机交互的自然性和便捷性。
📄 摘要(原文)
Recent progress in Sign Language Translation (SLT) has focussed primarily on improving the representational capacity of large language models to incorporate Sign Language features. This work explores an alternative direction: enhancing the geometric properties of skeletal representations themselves. We propose Geo-Sign, a method that leverages the properties of hyperbolic geometry to model the hierarchical structure inherent in sign language kinematics. By projecting skeletal features derived from Spatio-Temporal Graph Convolutional Networks (ST-GCNs) into the Poincaré ball model, we aim to create more discriminative embeddings, particularly for fine-grained motions like finger articulations. We introduce a hyperbolic projection layer, a weighted Fréchet mean aggregation scheme, and a geometric contrastive loss operating directly in hyperbolic space. These components are integrated into an end-to-end translation framework as a regularisation function, to enhance the representations within the language model. This work demonstrates the potential of hyperbolic geometry to improve skeletal representations for Sign Language Translation, improving on SOTA RGB methods while preserving privacy and improving computational efficiency. Code available here: https://github.com/ed-fish/geo-sign.