Cross-Lingual Attention Distillation with Personality-Informed Generative Augmentation for Multilingual Personality Recognition

📄 arXiv: 2604.08851v1 📥 PDF

作者: Jing Jie Tan, Ban-Hoe Kwan, Danny Wee-Kiat Ng, Yan-Chai Hum, Noriyuki Kawarazaki, Kosuke Takano

分类: cs.CL

发布日期: 2026-04-10

备注: IEEE Transactions on Cognitive and Developmental Systems (2026)

DOI: 10.1109/TCDS.2026.3682672


💡 一句话要点

提出ADAM框架,通过跨语言注意力蒸馏和个性化生成增强实现多语言人格识别。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言人格识别 跨语言注意力蒸馏 个性化生成增强 数据增强 大型语言模型

📋 核心要点

  1. 多语言人格识别面临缺乏多语言数据集的挑战,限制了跨文化人格分析的发展。
  2. ADAM框架利用英语数据集,通过PIGA生成高质量的多语言数据,并结合CLAD实现跨语言人格理解。
  3. 实验结果表明,ADAM显著优于传统方法,并在多个数据集上取得了显著的性能提升,具有良好的泛化能力。

📝 摘要(中文)

本文提出ADAM(跨语言注意力蒸馏与个性化引导生成增强的多语言人格识别)框架,旨在推进多语言人格识别技术。该方法利用现有的英语人格数据集作为主要来源,并采用大型语言模型(LLM)进行基于翻译的增强,通过个性化信息生成增强(PIGA)技术,生成高质量的日语、中文、马来语和法语等多语言训练数据。论文对这些增强技术的有效性进行了全面分析。ADAM集成了跨语言注意力蒸馏(CLAD),训练模型以理解和识别跨语言的人格特征,弥合人格分析中的语言和文化差距。研究对所提出的增强方法进行了全面评估,并通过消融实验确保了公平比较和稳健验证。结果表明,通过PIGA增强,CLAD在所有语言和人格特征上均显著优于标准BCE,在Essays数据集上平均BA得分提高了0.0573(达到0.6332),在Kaggle数据集上提高了0.0968(达到0.7448)。CLAD训练的模型还表现出强大的泛化能力,并达到了与当前领先的编码器模型相当的基准性能。模型权重、数据集和算法库可在https://research.jingjietan.com/?q=ADAM 获取。

🔬 方法详解

问题定义:论文旨在解决多语言人格识别中缺乏多语言数据集的问题。现有方法依赖于单语数据,无法有效进行跨语言和跨文化的人格分析,阻碍了该领域的发展。直接翻译现有数据集可能引入偏差,且成本高昂。

核心思路:论文的核心思路是利用大型语言模型(LLM)进行数据增强,并结合跨语言注意力蒸馏,从而在没有大量标注的多语言数据的情况下,提升多语言人格识别的性能。通过个性化信息生成增强(PIGA)来控制生成数据的质量和多样性,减少翻译偏差。

技术框架:ADAM框架主要包含两个阶段:1) 数据增强阶段:利用LLM和PIGA从现有的英语人格数据集中生成多语言数据,包括日语、中文、马来语和法语。PIGA通过控制生成文本的个性特征,提高生成数据的质量。2) 模型训练阶段:使用跨语言注意力蒸馏(CLAD)训练模型,使模型能够学习跨语言的人格特征表示。CLAD利用英语教师模型的注意力信息指导学生模型的训练。

关键创新:论文的关键创新在于:1) 提出了个性化信息生成增强(PIGA)方法,能够生成高质量的多语言人格数据。2) 提出了跨语言注意力蒸馏(CLAD)方法,能够有效利用英语教师模型的知识,提升学生模型的多语言人格识别能力。

关键设计:PIGA的关键设计包括:使用特定的prompt引导LLM生成具有特定人格特征的文本,并对生成文本进行过滤和筛选,以保证数据质量。CLAD的关键设计包括:使用KL散度损失函数来约束学生模型的注意力分布接近教师模型的注意力分布,从而实现知识迁移。模型采用Transformer架构,并使用预训练的语言模型进行初始化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ADAM框架在Essays数据集和Kaggle数据集上均取得了显著的性能提升。在Essays数据集上,平均BA得分提高了0.0573(达到0.6332),在Kaggle数据集上提高了0.0968(达到0.7448)。与标准BCE方法相比,ADAM在所有语言和人格特征上均表现出更优的性能。此外,CLAD训练的模型还表现出强大的泛化能力,并达到了与当前领先的编码器模型相当的基准性能。

🎯 应用场景

该研究成果可应用于跨文化交流、国际人才招聘、多语言客户服务等领域。通过准确识别不同语言背景下的人格特征,可以促进更有效的沟通和合作,提升用户体验,并为个性化推荐系统提供更精准的支持。未来,该技术有望应用于心理健康评估和跨文化心理学研究。

📄 摘要(原文)

While significant work has been done on personality recognition, the lack of multilingual datasets remains an unresolved challenge. To address this, we propose ADAM (Cross-Lingual (A)ttention (D)istillation with Personality-Guided Generative (A)ugmentation for (M)ultilingual Personality Recognition), a state-of-the-art approach designed to advance multilingual personality recognition. Our approach leverages an existing English-language personality dataset as the primary source and employs a large language model (LLM) for translationbased augmentation, enhanced by Personality-Informed Generative Augmentation (PIGA), to generate high-quality training data in multiple languages, including Japanese, Chinese, Malay, and French. We provide a thorough analysis to justify the effectiveness of these augmentation techniques. Building on these advancements, ADAM integrates Cross-Lingual Attention Distillation (CLAD) to train a model capable of understanding and recognizing personality traits across languages, bridging linguistic and cultural gaps in personality analysis. This research presents a thorough evaluation of the proposed augmentation method, incorporating an ablation study on recognition performance to ensure fair comparisons and robust validation. Overall, with PIGA augmentation, the findings demonstrate that CLAD significantly outperforms the standard BCE across all languages and personality traits, achieving notable improvements in average BA scores - 0.6332 (+0.0573) on the Essays dataset and 0.7448 (+0.0968) on the Kaggle dataset. The CLAD-trained model also demonstrated strong generalizability and achieved benchmark performance comparable to current leading encoder models. The model weight, dataset, and algorithm repository are available at https://research.jingjietan.com/?q=ADAM.