BEACON: A Multimodal Dataset for Learning Behavioral Fingerprints from Gameplay Data
作者: Ishpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh
分类: cs.CR, cs.AI, cs.CV, cs.LG, cs.NI
发布日期: 2026-05-11
💡 一句话要点
提出BEACON多模态数据集,通过高保真电竞游戏数据实现行为指纹识别与持续身份认证
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态数据集 行为生物识别 持续身份认证 用户行为画像 表征学习 电子竞技分析
📋 核心要点
- 现有行为认证数据集规模较小、模态单一且缺乏环境上下文,难以满足高风险场景下对复杂行为特征建模的需求。
- BEACON通过采集《Valorant》竞技游戏数据,构建了包含鼠标、键盘、网络、屏幕及硬件配置的多模态同步数据集。
- 该数据集为行为生物识别提供了高认知负荷的压力测试环境,支持持续认证、用户漂移分析及多模态表征学习研究。
📝 摘要(中文)
在高风险数字环境中,持续身份认证需要具备细粒度行为信号且符合真实认知与运动需求的数据集。然而,现有基准测试常受限于规模较小、模态单一或缺乏同步环境上下文等问题。为此,本文提出了BEACON(行为引擎用于认证与持续监测),这是一个大规模多模态数据集,涵盖了《Valorant》竞技游戏中的不同技能水平。BEACON包含约430GB的同步模态数据,记录了28名玩家共79场会话、约102.51小时的活跃游戏过程,数据类型包括高频鼠标动态、键盘敲击事件、网络数据包、屏幕录制、硬件元数据及游戏内配置上下文。BEACON利用战术射击游戏中固有的高精度运动技能与高认知负荷,为行为生物识别的鲁棒性提供了严苛的压力测试,旨在推动持续认证、行为画像、用户漂移及多模态表征学习的研究。
🔬 方法详解
问题定义:论文旨在解决现有行为生物识别研究中缺乏大规模、高保真、多模态同步数据集的问题,特别是针对高认知负荷和复杂运动控制场景下的持续身份认证挑战。
核心思路:利用战术射击游戏(如《Valorant》)作为高压测试平台,通过同步采集玩家的生理运动(鼠标/键盘)、数字交互(网络包)和环境上下文(屏幕/配置),构建能够反映个体行为指纹的综合数据集。
技术框架:数据集构建流程包括:多源数据同步采集模块(记录高频输入与系统状态)、数据清洗与对齐模块(处理不同采样率的模态数据)、以及特征提取与标注模块(将原始数据转化为可用于机器学习的结构化行为指纹)。
关键创新:BEACON的创新在于其“多模态同步性”与“高认知负荷场景”的结合。它不仅记录了单一动作,还通过网络包和游戏配置捕捉了环境对行为的影响,为研究用户漂移(User Drift)提供了独特的视角。
关键设计:数据集包含约102.51小时的活跃数据,涵盖了从低端到高端不同技能水平的玩家。设计上强调了高频采样(鼠标动态)与低频上下文(游戏配置)的关联,支持跨模态的深度学习模型训练与验证。
🖼️ 关键图片
📊 实验亮点
BEACON提供了约430GB的高质量同步数据,涵盖28名玩家的79场会话,是目前行为生物识别领域规模最大的多模态数据集之一。其通过高频鼠标动态与网络流量的深度关联,为评估行为指纹在复杂动态环境下的鲁棒性提供了严苛的基准,显著优于以往仅依赖单一输入设备的实验室数据集。
🎯 应用场景
该研究主要应用于高安全性数字环境的持续身份认证,如防止账号共享、检测外挂行为及识别异常登录。此外,其在用户行为画像、人机交互分析以及电子竞技选手的技能评估与训练辅助方面也具有显著的实际价值,为下一代鲁棒性生物识别模型提供了基准。
📄 摘要(原文)
Continuous authentication in high-stakes digital environments requires datasets with fine-grained behavioral signals under realistic cognitive and motor demands. But current benchmarks are often limited by small scale, unimodal sensing or lack of synchronised environmental context. To address this gap, this paper introduces BEACON ( Behavioral Engine for Authentication \& Continuous Monitoring), a large-scale multimodal dataset that captures diverse skill tiers in competitive \textit{Valorant} gameplay. BEACON contains approximately 430 GB of synchronised modality data (461 GB total on-disk including auxiliary \textit{Valorant} configuration captures) from 79 sessions across 28 distinct players, estimated at 102.51 hours of active gameplay, including high-frequency mouse dynamics, keystroke events, network packet captures, screen recordings, hardware metadata, and in-game configuration context. BEACON leverages the high precision motor skills and high cognitive load that are inherent to tactical shooters, making it a rigorous stress test for the robustness of behavioral biometrics. The dataset allows for the study of continuous authentication, behavioral profiling, user drift and multimodal representation learning in a high-fidelity esports setting. The authors release the dataset and code on Hugging Face and GitHub to create a reproducible benchmark for evaluating next-generation behavioral fingerprinting and security models