What do Large Language Models Say About Animals? Investigating Risks of Animal Harm in Generated Text

📄 arXiv: 2503.04804v4 📥 PDF

作者: Arturs Kanepajs, Aditi Basu, Sankalpa Ghose, Constance Li, Akshat Mehta, Ronak Mehta, Samuel David Tucker-Davis, Eric Zhou, Bob Fischer, Jacy Reese Anthis

分类: cs.CY, cs.CL

发布日期: 2025-03-03 (更新: 2025-06-17)


💡 一句话要点

提出AnimalHarmBench基准,评估大型语言模型生成文本中潜在的动物伤害风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 动物保护 伦理评估 基准测试 自然语言处理

📋 核心要点

  1. 现有的大型语言模型评估主要集中在对人类和环境的影响,忽略了对非人类动物的潜在危害。
  2. 构建AnimalHarmBench基准,通过精心设计的Reddit问题和合成伦理场景,评估LLM生成文本中潜在的动物伤害风险。
  3. 实验结果表明,不同LLM、动物类别和场景在动物伤害风险方面存在显著差异,揭示了现有模型的不足。

📝 摘要(中文)

随着机器学习系统日益融入社会,它们对人类和非人类生命的影响也在不断扩大。技术评估已经涉及了大型语言模型(LLMs)对人类和环境造成的各种潜在危害,但关于对非人类动物的危害的实证研究却很少。鉴于动物保护在监管和伦理AI框架中日益受到重视,我们提出了AnimalHarmBench(AHB),这是一个用于评估LLM生成文本中动物伤害风险的基准。我们的基准数据集包含1,850个来自Reddit帖子标题的精选问题和2,500个基于50个动物类别(例如,猫、爬行动物)和50个伦理场景的合成问题,采用70-30的公开-私有划分。场景包括关于如何对待动物的开放式问题、具有潜在动物伤害的实际场景以及预防动物伤害的支付意愿衡量。使用LLM-as-a-judge框架,评估响应增加或减少伤害的潜力,并对评估进行去偏置,以消除评委更倾向于对自己输出进行有利判断的倾向。AHB揭示了不同前沿LLM、动物类别、场景和subreddit之间的显著差异。最后,我们总结了技术研究的未来方向,并解决了构建关于复杂社会和道德主题的评估所面临的挑战。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在生成文本时可能存在的对动物造成伤害的风险评估问题。现有方法缺乏针对动物保护的专门评估基准,无法有效识别和量化LLMs在涉及动物伦理场景下的潜在危害。

核心思路:论文的核心思路是构建一个专门的基准数据集(AnimalHarmBench),并利用LLM-as-a-judge框架,评估LLMs在各种动物伦理场景下生成文本的潜在伤害程度。通过系统性的问题设计和评估流程,量化不同LLMs在动物保护方面的表现。

技术框架:AnimalHarmBench的整体框架包括以下几个主要部分:1) 数据集构建:收集Reddit帖子标题并生成合成问题,涵盖多种动物类别和伦理场景。2) LLM响应生成:使用不同的LLMs对数据集中的问题进行回答,生成文本响应。3) LLM评估:使用LLM-as-a-judge框架,评估生成的文本响应对动物的潜在伤害程度。4) 偏差校正:对评估结果进行偏差校正,消除评委对自己输出的偏好。

关键创新:该论文的关键创新在于构建了首个专门用于评估LLMs对动物潜在伤害的基准数据集AnimalHarmBench。此外,论文还采用了LLM-as-a-judge框架,并针对评估偏差进行了校正,提高了评估的准确性和可靠性。

关键设计:AnimalHarmBench数据集包含1,850个来自Reddit的精选问题和2,500个合成问题,涵盖50个动物类别和50个伦理场景。数据集采用70-30的公开-私有划分,保证了评估的公平性和可重复性。LLM-as-a-judge框架使用预训练的LLM作为评估者,对生成的文本响应进行评分,评估其对动物的潜在伤害程度。偏差校正方法旨在消除评估者对自己生成文本的偏好,提高评估的客观性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnimalHarmBench基准测试揭示了不同前沿LLM在动物伤害风险方面存在显著差异。实验结果表明,不同LLM在不同动物类别和伦理场景下的表现各异,表明现有模型在动物保护方面存在不足。此外,研究还发现,LLM-as-a-judge框架在评估动物伤害风险方面具有一定的有效性,但需要进行偏差校正以提高评估的准确性。

🎯 应用场景

该研究成果可应用于开发更符合伦理道德的人工智能系统,尤其是在涉及动物福利的领域。例如,可以用于评估和改进LLMs在生成关于动物护理、动物保护和动物伦理相关内容的安全性,从而减少潜在的动物伤害风险。此外,该基准还可以用于指导AI伦理政策的制定,促进动物保护在AI领域的进一步发展。

📄 摘要(原文)

As machine learning systems become increasingly embedded in society, their impact on human and nonhuman life continues to escalate. Technical evaluations have addressed a variety of potential harms from large language models (LLMs) towards humans and the environment, but there is little empirical work regarding harms towards nonhuman animals. Following the growing recognition of animal protection in regulatory and ethical AI frameworks, we present AnimalHarmBench (AHB), a benchmark for risks of animal harm in LLM-generated text. Our benchmark dataset comprises 1,850 curated questions from Reddit post titles and 2,500 synthetic questions based on 50 animal categories (e.g., cats, reptiles) and 50 ethical scenarios with a 70-30 public-private split. Scenarios include open-ended questions about how to treat animals, practical scenarios with potential animal harm, and willingness-to-pay measures for the prevention of animal harm. Using the LLM-as-a-judge framework, responses are evaluated for their potential to increase or decrease harm, and evaluations are debiased for the tendency of judges to judge their own outputs more favorably. AHB reveals significant differences across frontier LLMs, animal categories, scenarios, and subreddits. We conclude with future directions for technical research and addressing the challenges of building evaluations on complex social and moral topics.