MacBehaviour: An R package for behavioural experimentation on large language models

作者: Xufeng Duan, Shixuan Li, Zhenguang G. Cai1

分类: cs.CL, cs.AI

发布日期: 2024-05-13

备注: 11 pages

💡 一句话要点

MacBehaviour：用于大规模语言模型行为实验的R包

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 行为实验 R包 心理学 认知科学

📋 核心要点

现有方法缺乏统一的工具来简化和标准化LLM的行为实验流程，阻碍了研究的效率和可复现性。
MacBehaviour R包旨在提供一个统一的接口，支持与多种LLM交互，并提供实验设计、刺激呈现、行为操作等功能。
通过在GPT-3.5、Llama-2 7B和Vicuna-1.5 13B上复现声音-性别关联实验，验证了MacBehaviour的有效性。

📝 摘要（中文）

越来越多的研究兴趣集中在使用大型语言模型（LLM）和基于LLM的聊天机器人进行心理学实验，将LLM视为实验参与者。为此，我们开发了一个名为“MacBehaviour”的R包，旨在通过一个包与60多个语言模型（例如，OpenAI的GPT系列、Claude系列、Gemini、Llama系列和开源模型）进行交互，并简化LLM行为实验的实验过程。该软件包提供了一套全面的LLM实验设计函数，涵盖实验设计、刺激呈现、模型行为操作、响应记录和token概率。为了证明“MacBehaviour”的实用性和有效性，我们对三个LLM（GPT-3.5、Llama-2 7B和Vicuna-1.5 13B）进行了三个验证实验，以复现LLM中的声音-性别关联。结果一致表明，它们表现出类似人类的倾向，可以根据新个人姓名的语音来推断性别，正如先前所证明的那样（Cai et al., 2023）。总而言之，“MacBehaviour”是一个用于机器行为研究的R包，它提供了一个用户友好的界面和全面的功能，以简化和标准化实验过程。

🔬 方法详解

问题定义：现有研究缺乏一个统一、易用的工具来支持对多种LLM进行行为实验。研究人员需要针对不同的LLM编写不同的代码，这导致实验流程繁琐、效率低下，且难以复现。因此，需要一个能够简化和标准化LLM行为实验过程的工具。

核心思路：MacBehaviour的核心思路是提供一个R包，该包封装了与多种LLM交互的接口，并提供了一系列用于实验设计、刺激呈现、模型行为操作、响应记录和token概率计算的函数。通过提供统一的接口和标准化的流程，MacBehaviour旨在降低LLM行为实验的门槛，提高研究效率和可复现性。

技术框架：MacBehaviour R包主要包含以下模块： 1. 模型接口模块：提供与60多种LLM（包括OpenAI的GPT系列、Claude系列、Gemini、Llama系列和开源模型）交互的统一接口。 2. 实验设计模块：提供用于设计实验流程的函数，例如定义实验条件、生成刺激等。 3. 刺激呈现模块：提供用于向LLM呈现刺激的函数，例如文本输入、图像输入等。 4. 行为操作模块：提供用于操纵LLM行为的函数，例如设置温度、top_p等。 5. 响应记录模块：提供用于记录LLM响应的函数，例如记录文本输出、token概率等。

关键创新：MacBehaviour的关键创新在于其统一的接口和全面的功能。它将与多种LLM交互的复杂性封装在R包中，并提供了一系列用于实验设计的函数，从而简化了LLM行为实验的流程。与现有方法相比，MacBehaviour更加易用、高效，且具有更好的可复现性。

关键设计：MacBehaviour的关键设计包括： 1. 统一的API接口：为不同的LLM提供统一的API接口，方便用户切换和比较不同的模型。 2. 灵活的实验设计：支持用户自定义实验流程和刺激呈现方式。 3. 可配置的模型参数：允许用户调整LLM的各种参数，例如温度、top_p等。 4. 详细的日志记录：记录LLM的响应和token概率，方便用户进行分析。

📊 实验亮点

通过三个验证实验，MacBehaviour成功复现了LLM中的声音-性别关联现象。实验结果表明，GPT-3.5、Llama-2 7B和Vicuna-1.5 13B都表现出类似人类的倾向，可以根据新个人姓名的语音来推断性别。这验证了MacBehaviour的有效性，并表明LLM在一定程度上具有人类的认知能力。

🎯 应用场景

MacBehaviour可广泛应用于心理学、认知科学、语言学等领域，用于研究LLM的行为模式、认知能力和语言理解能力。例如，可以利用MacBehaviour研究LLM的偏见、道德推理能力、创造力等。此外，MacBehaviour还可以用于评估LLM的安全性，例如检测LLM是否会生成有害内容。该工具的标准化和易用性将促进LLM行为研究的快速发展。

📄 摘要（原文）

There has been increasing interest in investigating the behaviours of large language models (LLMs) and LLM-powered chatbots by treating an LLM as a participant in a psychological experiment. We therefore developed an R package called "MacBehaviour" that aims to interact with more than 60 language models in one package (e.g., OpenAI's GPT family, the Claude family, Gemini, Llama family, and open-source models) and streamline the experimental process of LLMs behaviour experiments. The package offers a comprehensive set of functions designed for LLM experiments, covering experiment design, stimuli presentation, model behaviour manipulation, logging response and token probability. To demonstrate the utility and effectiveness of "MacBehaviour," we conducted three validation experiments on three LLMs (GPT-3.5, Llama-2 7B, and Vicuna-1.5 13B) to replicate sound-gender association in LLMs. The results consistently showed that they exhibit human-like tendencies to infer gender from novel personal names based on their phonology, as previously demonstrated (Cai et al., 2023). In summary, "MacBehaviour" is an R package for machine behaviour studies which offers a user-friendly interface and comprehensive features to simplify and standardize the experimental process.

MacBehaviour: An R package for behavioural experimentation on large language models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理