Personalized Federated Learning for Egocentric Video Gaze Estimation with Comprehensive Parameter Frezzing

作者: Yuhu Feng, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama

分类: cs.CV

发布日期: 2025-02-25

💡 一句话要点

提出FedCPF，通过全面参数冻结实现个性化联邦学习的注视估计。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 联邦学习 个性化建模 注视估计 Transformer 参数冻结

📋 核心要点

现有的眼动追踪模型难以同时捕捉个体注视模式并适应不同的用户数据。
FedCPF的核心思想是冻结训练过程中变化率最高的参数，从而实现客户端模型的个性化。
在EGTEA Gaze+和Ego4D数据集上的实验表明，FedCPF在召回率、精确度和F1分数方面均优于现有联邦学习方法。

📝 摘要（中文）

本文提出了一种用于眼动视频注视估计的个性化联邦学习方法(PFL)，该方法利用基于Transformer的架构，并将其集成到PFL框架中。在该框架中，仅选择在训练期间变化率最高的参数，并将其冻结以用于客户端模型的个性化。通过在EGTEA Gaze+和Ego4D数据集上进行的大量实验，结果表明FedCPF显著优于先前报道的联邦学习方法，在召回率、精确度和F1分数方面均表现出更优的性能。这些结果证实了我们的全面参数冻结策略在增强模型个性化方面的有效性，使得FedCPF成为在联邦学习环境中需要适应性和准确性的任务的一个有前景的方法。

🔬 方法详解

问题定义：论文旨在解决第一人称视角视频中的个性化注视估计问题。现有方法在联邦学习场景下，难以平衡模型通用性和用户个性化需求，导致模型在不同用户上的泛化能力不足。

核心思路：核心思路是选择性地冻结模型参数，具体而言，冻结那些在训练过程中变化最快的参数。作者认为这些参数代表了用户个性化的注视模式，冻结它们可以有效防止模型在联邦学习过程中过度泛化，从而更好地适应每个用户的特定数据。

技术框架：整体框架基于联邦学习，包含服务器端和客户端。客户端使用Transformer架构进行注视估计，服务器端负责聚合客户端模型。关键步骤包括：1) 客户端本地训练；2) 选择并冻结变化率最高的参数；3) 将更新后的模型参数上传到服务器；4) 服务器端进行模型聚合。

关键创新：关键创新在于提出了“全面参数冻结”策略，即根据参数在训练过程中的变化率来选择性地冻结参数。这种方法能够更有效地提取和保留用户个性化的注视模式，从而提高模型的个性化能力。与传统的联邦学习方法相比，FedCPF能够更好地平衡模型通用性和用户个性化需求。

关键设计：模型使用Transformer作为基础架构，具体结构未知。参数选择策略是计算每个参数在训练过程中的变化率，并设置一个阈值来选择需要冻结的参数。损失函数和优化器等技术细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FedCPF在EGTEA Gaze+和Ego4D数据集上显著优于现有的联邦学习方法。具体而言，FedCPF在召回率、精确度和F1分数方面均取得了显著提升，证明了其在个性化注视估计方面的有效性。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、辅助驾驶等领域。通过个性化的注视估计，系统能够更好地理解用户的意图和行为，从而提供更自然、更智能的交互体验。例如，在辅助驾驶中，系统可以根据驾驶员的注视方向来预测其驾驶意图，从而提高驾驶安全性。

📄 摘要（原文）

Egocentric video gaze estimation requires models to capture individual gaze patterns while adapting to diverse user data. Our approach leverages a transformer-based architecture, integrating it into a PFL framework where only the most significant parameters, those exhibiting the highest rate of change during training, are selected and frozen for personalization in client models. Through extensive experimentation on the EGTEA Gaze+ and Ego4D datasets, we demonstrate that FedCPF significantly outperforms previously reported federated learning methods, achieving superior recall, precision, and F1-score. These results confirm the effectiveness of our comprehensive parameters freezing strategy in enhancing model personalization, making FedCPF a promising approach for tasks requiring both adaptability and accuracy in federated learning settings.

Personalized Federated Learning for Egocentric Video Gaze Estimation with Comprehensive Parameter Frezzing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理