Poor Alignment and Steerability of Large Language Models: Evidence from College Admission Essays

📄 arXiv: 2503.20062v1 📥 PDF

作者: Jinsook Lee, AJ Alvero, Thorsten Joachims, René Kizilcec

分类: cs.CL

发布日期: 2025-03-25

备注: 48 pages, 10 figures, 6 tables


💡 一句话要点

大型语言模型在大学申请文书生成中存在对齐性和可控性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 模型对齐 模型可控性 大学申请文书 自然语言处理

📋 核心要点

  1. 大型语言模型被广泛用于正式文本写作,但其写作风格与人类的差异程度以及是否能根据提示改变风格是关键问题。
  2. 该研究通过对比人类申请文书与LLM生成文书的语言特征,评估LLM在模拟不同人口统计群体写作风格方面的能力。
  3. 实验表明,LLM生成的文书与人类文书存在显著差异,且通过人口统计信息提示难以有效控制LLM的写作风格。

📝 摘要(中文)

本文研究了大型语言模型(LLM)在正式文本写作中的应用,重点关注模型对齐性和可控性问题。研究通过比较30000名大学申请者的文书与两种LLM生成的文书(一种仅使用申请问题提示,另一种添加了申请者人口统计信息)的词汇和句子变化,在高风险的大学招生背景下进行了分析。结果表明,无论使用何种模型和分析方法,LLM生成的文书在语言上都与人类撰写的文书存在显著差异。此外,通过特定社会人口统计身份提示来使模型与该身份群体的人类写作模式对齐是无效的。这在性别、种族、第一代大学生身份和地理位置等关键维度上均成立。添加人口统计信息提示的合成文本与未添加提示的合成文本之间的相似度高于与人类文本的相似度,表明提示并未缓解同质化问题。当前LLM在模型对齐性和可控性方面的问题引发了人们对LLM在高风险场景中使用的担忧。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在生成文本时,与特定人群写作风格对齐的问题。现有方法难以使LLM生成具有目标人群特征的文本,导致生成内容缺乏个性化和真实性。特别是在大学申请文书等高风险场景中,这种对齐性问题会影响LLM的可用性和公平性。

核心思路:论文的核心思路是通过对比分析人类撰写的文书和LLM生成的文书,评估LLM在模拟不同人口统计群体写作风格方面的能力。通过向LLM提供不同的人口统计信息提示,观察LLM是否能够生成更符合该群体特征的文本。如果LLM无法有效对齐,则说明其可控性存在问题。

技术框架:研究的技术框架主要包括以下几个步骤:1) 收集人类撰写的大学申请文书,并获取申请者的人口统计信息;2) 使用LLM生成两种类型的文书:一种仅使用申请问题提示,另一种添加申请者的人口统计信息提示;3) 对比分析人类文书和LLM生成文书的词汇和句子变化,评估LLM的对齐性和可控性。

关键创新:论文的关键创新在于其在高风险的大学申请文书场景下,系统性地评估了LLM的对齐性和可控性问题。以往的研究较少关注LLM在模拟特定人群写作风格方面的能力,而本文通过对比分析,揭示了LLM在这一方面的局限性。

关键设计:研究的关键设计包括:1) 使用了大规模的真实申请文书数据集,保证了研究的可靠性;2) 采用了两种类型的LLM生成文书,分别评估了无提示和有提示情况下的模型性能;3) 使用了多种语言分析方法,包括词汇和句子变化分析,以全面评估LLM的对齐性和可控性。

📊 实验亮点

研究发现,LLM生成的文书在语言上与人类文书存在显著差异,且通过人口统计信息提示难以有效控制LLM的写作风格。添加人口统计信息提示的合成文本与未添加提示的合成文本之间的相似度高于与人类文本的相似度,表明提示并未缓解同质化问题。这些结果表明,当前LLM在对齐性和可控性方面存在显著不足。

🎯 应用场景

该研究结果对LLM在教育领域的应用具有重要意义,尤其是在辅助写作、个性化学习等方面。同时也提醒人们在使用LLM时需要关注其潜在的偏见和局限性,避免过度依赖LLM生成的内容,特别是在高风险场景下。未来的研究可以探索更有效的提示方法和模型训练策略,以提高LLM的对齐性和可控性。

📄 摘要(原文)

People are increasingly using technologies equipped with large language models (LLM) to write texts for formal communication, which raises two important questions at the intersection of technology and society: Who do LLMs write like (model alignment); and can LLMs be prompted to change who they write like (model steerability). We investigate these questions in the high-stakes context of undergraduate admissions at a selective university by comparing lexical and sentence variation between essays written by 30,000 applicants to two types of LLM-generated essays: one prompted with only the essay question used by the human applicants; and another with additional demographic information about each applicant. We consistently find that both types of LLM-generated essays are linguistically distinct from human-authored essays, regardless of the specific model and analytical approach. Further, prompting a specific sociodemographic identity is remarkably ineffective in aligning the model with the linguistic patterns observed in human writing from this identity group. This holds along the key dimensions of sex, race, first-generation status, and geographic location. The demographically prompted and unprompted synthetic texts were also more similar to each other than to the human text, meaning that prompting did not alleviate homogenization. These issues of model alignment and steerability in current LLMs raise concerns about the use of LLMs in high-stakes contexts.