Activations as Features: Probing LLMs for Generalizable Essay Scoring Representations

📄 arXiv: 2512.19456v1 📥 PDF

作者: Jinwei Chi, Ke Wang, Yu Chen, Xuanye Lin, Qiang Xu

分类: cs.CL, cs.AI

发布日期: 2025-12-22


💡 一句话要点

利用LLM激活值进行可泛化论文评分表征学习,提升跨prompt场景的评分能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动论文评分 大型语言模型 激活值 跨Prompt 表征学习

📋 核心要点

  1. 跨prompt的自动论文评分面临评分标准多样性的挑战,现有方法侧重于LLM输出,忽略了中间层激活值的潜在价值。
  2. 该研究探索LLM中间层激活值在跨prompt论文评分中的判别能力,通过拟合探针分析不同模型和输入内容的影响。
  3. 实验结果表明,LLM激活值具有很强的论文质量判别能力,且LLM能根据特征和论文类型调整评估视角。

📝 摘要(中文)

由于评分标准的多样性,自动论文评分(AES)在跨prompt设置中是一项具有挑战性的任务。以往的研究主要集中于利用大型语言模型(LLM)的输出来提高评分准确性,但我们认为中间层的激活值也可能提供有价值的信息。为了探索这种可能性,我们评估了LLM的激活值在跨prompt论文评分任务中的判别能力。具体来说,我们使用激活值来拟合探针,并进一步分析了不同模型和LLM的输入内容对这种判别能力的影响。通过计算不同prompt下各个特征维度上论文的方向,我们分析了大型语言模型在论文类型和特征方面的评估视角的差异。结果表明,激活值在评估论文质量方面具有很强的判别能力,并且LLM可以调整其评估视角以适应不同的特征和论文类型,从而有效地处理跨prompt设置中评分标准的多样性。

🔬 方法详解

问题定义:自动论文评分(AES)旨在根据预定义的标准自动评估论文的质量。在跨prompt场景下,由于不同prompt对应的评分标准存在差异,导致模型难以泛化。现有方法主要关注LLM的输出,例如直接使用LLM生成的分数或利用LLM输出的文本进行特征工程,但忽略了LLM中间层激活值中可能蕴含的丰富信息。

核心思路:该论文的核心思路是利用LLM中间层的激活值作为特征,通过训练简单的探针模型来预测论文的质量。作者认为,LLM在处理不同prompt的论文时,其内部表征会发生变化,而这些变化反映在中间层的激活值中。通过分析激活值的判别能力,可以更好地理解LLM如何适应不同的评分标准。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 使用不同的LLM(例如BERT、RoBERTa等)处理论文,并提取指定层的激活值;2) 使用提取的激活值作为特征,训练一个简单的探针模型(例如线性回归或支持向量机)来预测论文的得分;3) 通过分析探针模型的性能(例如准确率、F1值等)来评估激活值的判别能力;4) 通过计算不同prompt下论文在各个特征维度上的方向,分析LLM评估视角的差异。

关键创新:该论文的关键创新在于将LLM的中间层激活值作为特征用于自动论文评分,并分析了激活值在跨prompt场景下的判别能力。与现有方法相比,该方法无需对LLM进行微调,而是直接利用其预训练的知识,从而降低了计算成本。此外,该研究还通过分析激活值的方向,揭示了LLM在评估不同论文类型和特征时的视角差异。

关键设计:在实验中,作者使用了多个LLM模型,并选择了不同的中间层提取激活值。探针模型采用了线性回归和支持向量机等简单模型,以避免过拟合。为了评估激活值的判别能力,作者使用了准确率、F1值等指标。此外,作者还设计了一种基于向量方向的分析方法,用于比较不同prompt下LLM评估视角的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM的激活值在评估论文质量方面具有很强的判别能力。通过训练简单的探针模型,可以达到与现有方法相当甚至更好的性能。此外,研究还发现LLM可以根据不同的特征和论文类型调整其评估视角,从而有效地处理跨prompt设置中评分标准的多样性。具体性能数据未知,但结论表明该方法具有实际应用价值。

🎯 应用场景

该研究成果可应用于在线教育平台、论文评审系统等领域,实现自动化的论文评分,减轻教师和评审人员的工作负担。通过分析LLM的评估视角,可以帮助改进评分标准,提高评分的公平性和准确性。此外,该方法还可以推广到其他文本评估任务中,例如机器翻译质量评估、文本摘要质量评估等。

📄 摘要(原文)

Automated essay scoring (AES) is a challenging task in cross-prompt settings due to the diversity of scoring criteria. While previous studies have focused on the output of large language models (LLMs) to improve scoring accuracy, we believe activations from intermediate layers may also provide valuable information. To explore this possibility, we evaluated the discriminative power of LLMs' activations in cross-prompt essay scoring task. Specifically, we used activations to fit probes and further analyzed the effects of different models and input content of LLMs on this discriminative power. By computing the directions of essays across various trait dimensions under different prompts, we analyzed the variation in evaluation perspectives of large language models concerning essay types and traits. Results show that the activations possess strong discriminative power in evaluating essay quality and that LLMs can adapt their evaluation perspectives to different traits and essay types, effectively handling the diversity of scoring criteria in cross-prompt settings.