Is AI Catching Up to Human Expression? Exploring Emotion, Personality, Authorship, and Linguistic Style in English and Arabic with Six Large Language Models
作者: Nasser A Alsadhan
分类: cs.CL, cs.LG
发布日期: 2026-03-24
备注: Preprint. Under review
💡 一句话要点
评估大型语言模型在英语和阿拉伯语中模仿人类情感、个性和写作风格的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 情感分析 个性识别 作者身份归属 阿拉伯语 资源匮乏语言 合成数据 AI生成文本
📋 核心要点
- 现有方法难以准确评估LLM在模仿人类情感和个性方面的能力,尤其是在资源匮乏的语言中。
- 本研究通过情感和个性分类任务,对比分析人类和AI生成文本的差异,评估LLM的模仿能力。
- 实验结果表明,AI生成文本可被区分,且情感和个性编码方式与人类不同,但合成数据可提升资源匮乏语言的性能。
📝 摘要(中文)
大型语言模型(LLM)日益增长的流畅性引发了关于其在不同语言和文化背景下模拟复杂人类特征(包括情感表达和个性)的能力的重要问题。本研究调查了LLM是否能令人信服地模仿英语中的情感细微差别和阿拉伯语中的个性标记,阿拉伯语是一种具有独特语言和文化特征的关键的资源不足的语言。我们对六个模型(Jais、Mistral、LLaMA、GPT-4o、Gemini和DeepSeek)进行了两项任务:首先,我们评估机器分类器是否可以可靠地区分人类撰写的文本和AI生成的文本。其次,我们评估LLM生成的文本在多大程度上表现出与人类相当的情感或个性特征。我们的结果表明,AI生成的文本可以与人类撰写的文本区分开来(F1>0.95),但分类性能在释义样本上会下降,表明依赖于表面的文体线索。情感和个性分类实验揭示了显著的泛化差距:在人类数据上训练的分类器在AI生成的文本上表现不佳,反之亦然,这表明LLM以不同于人类的方式编码情感信号。重要的是,用AI生成的数据增强训练可以提高阿拉伯语个性分类任务的性能,突出了合成数据在解决资源不足语言的挑战方面的潜力。特定于模型的分析表明,GPT-4o和Gemini表现出卓越的情感连贯性。语言和心理语言学分析揭示了人类文本和AI文本在语气、真实性和文本复杂性方面的可衡量差异。这些发现对情感计算、作者身份归属和负责任的AI部署具有重要意义,尤其是在生成AI检测和对齐构成独特挑战的资源不足的语言环境中。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在英语和阿拉伯语中模仿人类情感表达和个性的能力。现有方法主要依赖于通用评估指标,缺乏对特定语言和文化背景下情感细微差别的深入分析,并且在资源匮乏的语言中面临数据不足的挑战。
核心思路:论文的核心思路是通过对比分析人类撰写和LLM生成的文本,考察机器分类器区分二者的能力,以及LLM生成文本在情感和个性特征上的表现。通过这种方式,可以揭示LLM在模仿人类情感和个性方面的优势和局限性。
技术框架:该研究包含两个主要任务:1) 区分人类撰写和AI生成的文本;2) 评估LLM生成文本的情感和个性特征。研究使用了六个大型语言模型(Jais、Mistral、LLaMA、GPT-4o、Gemini和DeepSeek),并针对英语和阿拉伯语分别进行了实验。情感和个性分类器在人类数据上训练,然后在AI生成的数据上进行测试,反之亦然。
关键创新:该研究的关键创新在于:1) 关注了资源匮乏的阿拉伯语,填补了相关研究的空白;2) 采用了对比分析的方法,直接比较人类和AI生成文本的差异;3) 探索了使用AI生成数据增强训练的可能性,以解决资源匮乏语言的数据不足问题。
关键设计:在区分人类撰写和AI生成文本的任务中,使用了机器分类器,并评估了其在原始文本和释义文本上的性能。情感和个性分类任务使用了预训练的语言模型作为特征提取器,并训练了分类器来预测情感或个性标签。实验中使用了F1-score作为评估指标,并进行了模型特定的分析,以了解不同LLM的表现差异。
📊 实验亮点
实验结果表明,AI生成的文本可以与人类撰写的文本区分开来(F1>0.95),但分类性能在释义样本上会下降。情感和个性分类实验揭示了显著的泛化差距。值得注意的是,用AI生成的数据增强训练可以提高阿拉伯语个性分类任务的性能。GPT-4o和Gemini表现出卓越的情感连贯性。
🎯 应用场景
该研究成果可应用于情感计算、作者身份归属和负责任的AI部署等领域。尤其是在资源匮乏的语言环境中,该研究有助于开发更有效的AI检测和对齐方法,从而确保AI技术的安全和可靠使用。此外,该研究也为利用合成数据增强训练提供了新的思路。
📄 摘要(原文)
The advancing fluency of LLMs raises important questions about their ability to emulate complex human traits, including emotional expression and personality, across diverse linguistic and cultural contexts. This study investigates whether LLMs can convincingly mimic emotional nuance in English and personality markers in Arabic, a critical under-resourced language with unique linguistic and cultural characteristics. We conduct two tasks across six models:Jais, Mistral, LLaMA, GPT-4o, Gemini, and DeepSeek. First, we evaluate whether machine classifiers can reliably distinguish between human-authored and AI-generated texts. Second, we assess the extent to which LLM-generated texts exhibit emotional or personality traits comparable to those of humans. Our results demonstrate that AI-generated texts are distinguishable from human-authored ones (F1>0.95), though classification performance deteriorates on paraphrased samples, indicating a reliance on superficial stylistic cues. Emotion and personality classification experiments reveal significant generalization gaps: classifiers trained on human data perform poorly on AI-generated texts and vice versa, suggesting LLMs encode affective signals differently from humans. Importantly, augmenting training with AI-generated data enhances performance in the Arabic personality classification task, highlighting the potential of synthetic data to address challenges in under-resourced languages. Model-specific analyses show that GPT-4o and Gemini exhibit superior affective coherence. Linguistic and psycholinguistic analyses reveal measurable divergences in tone, authenticity, and textual complexity between human and AI texts. These findings have implications for affective computing, authorship attribution, and responsible AI deployment, particularly within underresourced language contexts where generative AI detection and alignment pose unique challenges.