Agentic Username Suggestion and Multimodal Gender Detection in Online Platforms: Introducing the PNGT-26K Dataset

📄 arXiv: 2509.11136v1 📥 PDF

作者: Farbod Bijary, Mohsen Ebadpour, Amirhosein Tajbakhsh

分类: cs.LG, cs.AI, cs.CL, cs.SI

发布日期: 2025-09-14


💡 一句话要点

提出PNGT-26K波斯语姓名数据集,用于提升在线平台性别检测和用户名推荐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 波斯语姓名 性别检测 用户名推荐 数据集 自然语言处理

📋 核心要点

  1. 现有工具在处理波斯语姓名时,性别检测性能显著下降,主要原因是音译不一致和文化命名模式。
  2. 论文提出PNGT-26K数据集,包含波斯语姓名、性别和英文音译,并构建Open Gender Detection和Nominalist框架。
  3. Open Gender Detection框架利用用户个人资料照片和姓名进行性别预测,Nominalist框架则利用智能AI辅助用户选择用户名。

📝 摘要(中文)

由于音译不一致和特定文化命名模式,波斯语姓名给自然语言处理应用带来了独特的挑战,尤其是在性别检测和数字身份创建方面。现有工具在波斯语姓名上的性能显著下降,而全面数据集的稀缺性进一步加剧了这些限制。为了应对这些挑战,本研究引入了PNGT-26K,这是一个包含约26,000个元组的综合性波斯语姓名数据集,其中包含其常用性别及其英文音译。为了展示如何利用此资源,我们还介绍了两个框架,即Open Gender Detection和Nominalist。Open Gender Detection是一个生产级的、即用型框架,用于使用用户的现有数据(例如个人资料照片和姓名)来给出关于该人性别的概率猜测。Nominalist是本文介绍的第二个框架,它利用智能AI来帮助用户在任何平台上为其社交媒体帐户选择用户名。它可以轻松集成到任何网站中,以提供更好的用户体验。PNGT-26K数据集、Nominalist和Open Gender Detection框架可在Github上公开获得。

🔬 方法详解

问题定义:论文旨在解决波斯语姓名在在线平台性别检测和用户名推荐中面临的挑战。现有方法在处理波斯语姓名时,由于音译不一致和文化差异,准确率显著降低,缺乏高质量的波斯语姓名数据集是主要瓶颈。

核心思路:论文的核心思路是构建一个大规模、高质量的波斯语姓名数据集PNGT-26K,并基于此数据集开发两个应用框架:Open Gender Detection和Nominalist。PNGT-26K数据集为后续研究提供了数据基础,两个框架则展示了数据集的应用价值。

技术框架:整体框架包含数据收集与整理、数据集构建、Open Gender Detection框架开发和Nominalist框架开发四个主要阶段。PNGT-26K数据集包含波斯语姓名、性别和英文音译三个字段。Open Gender Detection框架利用用户提供的姓名和头像信息进行性别预测。Nominalist框架则利用AI算法为用户推荐合适的用户名。

关键创新:论文的关键创新在于构建了大规模的波斯语姓名数据集PNGT-26K,填补了该领域的数据空白。此外,提出的Open Gender Detection和Nominalist框架,将数据集应用于实际场景,展示了其应用价值。

关键设计:PNGT-26K数据集包含约26,000个元组,每个元组包含波斯语姓名、性别和英文音译。Open Gender Detection框架的具体实现细节(例如使用的模型、损失函数等)以及Nominalist框架的AI算法细节(例如推荐算法、用户画像等)在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含26,000个波斯语姓名元组的PNGT-26K数据集,为波斯语姓名处理领域提供了重要资源。同时,论文提出了Open Gender Detection和Nominalist两个应用框架,展示了数据集在性别检测和用户名推荐方面的应用潜力。具体的性能数据和对比基线在摘要中未提及,属于未知信息。

🎯 应用场景

该研究成果可广泛应用于社交媒体、在线游戏、电子商务等需要用户注册和身份识别的在线平台。PNGT-26K数据集可以帮助提升这些平台在波斯语用户性别检测和用户名推荐方面的准确性和用户体验。未来,该数据集可以扩展到其他语言和文化背景,为全球用户提供更好的服务。

📄 摘要(原文)

Persian names present unique challenges for natural language processing applications, particularly in gender detection and digital identity creation, due to transliteration inconsistencies and cultural-specific naming patterns. Existing tools exhibit significant performance degradation on Persian names, while the scarcity of comprehensive datasets further compounds these limitations. To address these challenges, the present research introduces PNGT-26K, a comprehensive dataset of Persian names, their commonly associated gender, and their English transliteration, consisting of approximately 26,000 tuples. As a demonstration of how this resource can be utilized, we also introduce two frameworks, namely Open Gender Detection and Nominalist. Open Gender Detection is a production-grade, ready-to-use framework for using existing data from a user, such as profile photo and name, to give a probabilistic guess about the person's gender. Nominalist, the second framework introduced by this paper, utilizes agentic AI to help users choose a username for their social media accounts on any platform. It can be easily integrated into any website to provide a better user experience. The PNGT-26K dataset, Nominalist and Open Gender Detection frameworks are publicly available on Github.