Probing Cultural Signals in Large Language Models through Author Profiling

📄 arXiv: 2603.16749v1 📥 PDF

作者: Valentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys, Elouan Vuichard, Jean-Michel Loubes

分类: cs.CL, cs.LG

发布日期: 2026-03-17

🔗 代码/项目: GITHUB


💡 一句话要点

通过作者画像探测大型语言模型中的文化信号

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文化偏见 作者画像 零样本学习 公平性指标

📋 核心要点

  1. 大型语言模型在社会应用中日益普及,但其潜在的文化偏见引发关注,需要有效方法进行评估。
  2. 本文提出一种零样本作者画像方法,通过分析歌词推断作者性别和种族,以此探测LLM中的文化信号。
  3. 实验表明,LLM具备一定的作者画像能力,但存在显著的文化倾向,不同模型对不同种族存在偏好。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于具有社会影响的场景,引发了对其编码的文化偏见的担忧。本文通过评估LLMs在零样本设置下,能否从歌曲歌词中进行作者画像,推断歌手的性别和种族来探测这些表征,无需特定任务的微调。在超过10,000首歌词上评估的几个开源模型中,我们发现LLMs实现了非平凡的画像性能,但表现出系统的文化倾向:大多数模型默认倾向于北美种族,而DeepSeek-1.5B更强烈地与亚洲种族对齐。这一发现来自模型的预测分布和对其生成的理由的分析。为了量化这些差异,我们引入了两个公平性指标,即模态准确率差异(MAD)和召回率差异(RD),并表明Ministral-8B在评估的模型中表现出最强的种族偏见,而Gemma-12B表现出最平衡的行为。我们的代码可在GitHub上找到。

🔬 方法详解

问题定义:本文旨在研究大型语言模型(LLMs)是否以及如何在它们的表征中编码文化偏见。现有的LLM评估方法通常侧重于事实性或逻辑推理,而忽略了文化偏见这一重要维度。因此,需要一种新的方法来探测LLM中的文化信号,并量化其潜在的偏见。

核心思路:本文的核心思路是利用作者画像任务作为探针,通过分析LLM在零样本设置下,从歌曲歌词中推断作者性别和种族的能力,来揭示其内在的文化倾向。歌曲歌词作为一种文化载体,能够反映作者的身份特征和文化背景,从而为评估LLM的文化偏见提供了有效的信息来源。

技术框架:本文的技术框架主要包括以下几个步骤:1)收集包含歌手性别和种族信息的歌曲歌词数据集;2)使用不同的开源LLM(如Ministral-8B、Gemma-12B、DeepSeek-1.5B等)在零样本设置下进行作者画像,即根据歌词推断歌手的性别和种族;3)分析LLM的预测分布和生成的理由,以识别其文化倾向;4)引入两个公平性指标,即模态准确率差异(MAD)和召回率差异(RD),来量化LLM的文化偏见。

关键创新:本文的关键创新在于:1)提出了一种新的基于作者画像的LLM文化偏见探测方法,该方法无需特定任务的微调,具有较高的通用性和可扩展性;2)引入了两个新的公平性指标(MAD和RD),用于量化LLM在不同文化群体上的表现差异;3)通过实验发现,不同的LLM表现出不同的文化倾向,例如,Ministral-8B表现出最强的种族偏见,而Gemma-12B表现出最平衡的行为。

关键设计:本文的关键设计包括:1)选择歌曲歌词作为文化信息的载体,因为歌词能够反映作者的身份特征和文化背景;2)采用零样本设置,避免了微调对LLM的潜在影响;3)使用模态准确率差异(MAD)和召回率差异(RD)作为公平性指标,MAD衡量不同模态(例如,不同种族)之间的准确率差异,RD衡量不同模态之间的召回率差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同的LLM在作者画像任务中表现出不同的文化倾向。例如,大多数模型默认倾向于北美种族,而DeepSeek-1.5B更强烈地与亚洲种族对齐。Ministral-8B表现出最强的种族偏见,而Gemma-12B表现出最平衡的行为。这些发现揭示了LLM中存在的潜在文化偏见,为改进LLM的公平性提供了重要依据。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的公平性和公正性,降低其在社会应用中产生歧视性结果的风险。例如,可以利用该方法来识别和缓解LLM在招聘、信贷评估、法律咨询等领域的文化偏见,从而促进社会公平。

📄 摘要(原文)

Large language models (LLMs) are increasingly deployed in applications with societal impact, raising concerns about the cultural biases they encode. We probe these representations by evaluating whether LLMs can perform author profiling from song lyrics in a zero-shot setting, inferring singers' gender and ethnicity without task-specific fine-tuning. Across several open-source models evaluated on more than 10,000 lyrics, we find that LLMs achieve non-trivial profiling performance but demonstrate systematic cultural alignment: most models default toward North American ethnicity, while DeepSeek-1.5B aligns more strongly with Asian ethnicity. This finding emerges from both the models' prediction distributions and an analysis of their generated rationales. To quantify these disparities, we introduce two fairness metrics, Modality Accuracy Divergence (MAD) and Recall Divergence (RD), and show that Ministral-8B displays the strongest ethnicity bias among the evaluated models, whereas Gemma-12B shows the most balanced behavior. Our code is available on GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).