A Flexible Method for Behaviorally Measuring Alignment Between Human and Artificial Intelligence Using Representational Similarity Analysis
作者: Mattson Ogg, Ritwik Bose, Jamie Scharf, Christopher Ratto, Michael Wolmetz
分类: cs.AI
发布日期: 2024-11-30 (更新: 2025-10-01)
💡 一句话要点
利用表征相似性分析,灵活衡量人与AI在行为上的对齐程度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机对齐 表征相似性分析 大型语言模型 多模态学习 认知科学 语义理解 个体差异
📋 核心要点
- 现有方法难以有效衡量LLM与人类认知在复杂任务中的对齐程度,尤其是在语义理解方面。
- 论文提出使用表征相似性分析(RSA)方法,通过比较AI和人类对成对样本的相似性判断来量化对齐程度。
- 实验表明GPT-4o在文本处理方面与人类表现出更强的一致性,但个体差异的捕捉仍有不足。
📝 摘要(中文)
随着大型语言模型(LLM)在关键社会和决策制定中扮演越来越重要的角色,衡量它们与人类认知的一致性至关重要。这需要能够评估这些系统如何表示信息,并促进与人类理解在不同任务中进行比较的方法。为了满足这一需求,我们改进了表征相似性分析(RSA),该方法使用成对相似性评级来量化AI和人类之间的一致性。我们在文本和图像模态的语义对齐上测试了这种方法,测量了不同大型语言和视觉语言模型(LLM和VLM)的相似性判断与人类在群体和个体层面的反应的对齐程度。GPT-4o在我们测试的模型中表现出与人类性能最强的一致性,特别是当利用其文本处理能力而非图像处理能力时,无论输入模态如何。然而,我们研究的任何模型都未能充分捕捉到人类参与者之间观察到的个体间差异,并且仅与任何个体人类的反应适度对齐。该方法有助于发现某些超参数和提示,这些超参数和提示可以引导模型行为,使其在个体间或群体层面上具有或多或少类人的特性。成对评级和RSA能够有效且灵活地量化人机对齐,这补充了现有的基于准确性的基准任务。我们展示了这种方法在多种模态(单词、句子、图像)中的实用性,用于理解LLM如何编码知识以及检查与人类认知的表征对齐。
🔬 方法详解
问题定义:论文旨在解决如何有效且灵活地衡量大型语言模型(LLM)和人类认知之间的对齐程度的问题。现有方法,如基于准确率的基准测试,无法充分捕捉LLM内部表征与人类理解的差异,尤其是在语义层面。此外,现有方法难以处理多模态输入,并且缺乏对个体差异的考量。
核心思路:论文的核心思路是利用表征相似性分析(RSA)来比较LLM和人类对同一组刺激(例如,单词、句子、图像)的表征。RSA通过计算不同刺激之间的相似性矩阵,然后比较LLM和人类的相似性矩阵,从而量化它们之间的对齐程度。这种方法的核心在于,如果LLM和人类以相似的方式理解这些刺激,那么它们的相似性矩阵应该高度相关。
技术框架:该方法主要包含以下几个阶段:1)选择一组刺激(例如,单词、句子、图像);2)让人类和LLM对这些刺激进行成对相似性评级;3)基于这些评级构建表征相似性矩阵(RSM);4)计算人类和LLM的RSM之间的相关性,以量化它们之间的对齐程度。该框架可以灵活地应用于不同的模态(文本、图像)和不同的LLM。
关键创新:该方法的主要创新在于将RSA应用于衡量人机对齐,并将其扩展到多模态数据。与传统的基于准确率的基准测试相比,RSA能够更深入地了解LLM内部表征与人类理解的差异。此外,该方法还能够捕捉个体差异,并识别影响人机对齐的超参数和提示。
关键设计:关键设计包括:1)使用成对相似性评级而非绝对相似性评级,以减少主观偏差;2)使用多种相关性度量(例如,Spearman相关系数、Pearson相关系数)来评估RSM之间的相关性;3)系统地探索不同的超参数和提示,以识别影响人机对齐的因素;4)在群体层面和个体层面分析人机对齐程度。
📊 实验亮点
实验结果表明,GPT-4o在文本处理方面与人类表现出最强的一致性,尤其是在利用其文本处理能力而非图像处理能力时。然而,所有模型都未能充分捕捉到人类参与者之间观察到的个体间差异,并且仅与任何个体人类的反应适度对齐。该研究还发现,某些超参数和提示可以影响人机对齐程度。
🎯 应用场景
该研究成果可应用于评估和改进LLM的安全性、可靠性和可解释性。通过量化LLM与人类认知的一致性,可以更好地理解LLM的决策过程,并确保其行为符合人类价值观。此外,该方法还可以用于开发更个性化的AI系统,这些系统能够更好地适应个体用户的需求和偏好。
📄 摘要(原文)
As we consider entrusting Large Language Models (LLMs) with key societal and decision-making roles, measuring their alignment with human cognition becomes critical. This requires methods that can assess how these systems represent information and facilitate comparisons with human understanding across diverse tasks. To meet this need, we adapted Representational Similarity Analysis (RSA), a method that uses pairwise similarity ratings to quantify alignment between AIs and humans. We tested this approach on semantic alignment across text and image modalities, measuring how different Large Language and Vision Language Model (LLM and VLM) similarity judgments aligned with human responses at both group and individual levels. GPT-4o showed the strongest alignment with human performance among the models we tested, particularly when leveraging its text processing capabilities rather than image processing, regardless of the input modality. However, no model we studied adequately captured the inter-individual variability observed among human participants, and only moderately aligned with any individual human's responses. This method helped uncover certain hyperparameters and prompts that could steer model behavior to have more or less human-like qualities at an inter-individual or group level. Pairwise ratings and RSA enable the efficient and flexible quantification of human-AI alignment, which complements existing accuracy-based benchmark tasks. We demonstrate the utility of this approach across multiple modalities (words, sentences, images) for understanding how LLMs encode knowledge and for examining representational alignment with human cognition.