Six Llamas: Comparative Religious Ethics Through LoRA-Adapted Language Models

📄 arXiv: 2604.18404v1 📥 PDF

作者: Chad Coleman, W. Russell Neuman, Manan Shah, Ali Dasdan, Matthew Crispi, Morris Chiang, Zack Leitman, Mustafa Poonawala

分类: cs.AI

发布日期: 2026-04-20

备注: 51 pages, 14 figures. We present Six Llamas, a comparative study examining whether Llama-3.1-8B models fine-tuned on distinct religious corpora encode systematically different patterns of ethical reasoning. Five LoRA-adapted variants are constructed for Christianity, Islam, Judaism, Hinduism, and Buddhism. For theoretical background on the condensate comparative method, see arXiv:2603.07329


💡 一句话要点

Six Llamas:通过LoRA适配的语言模型进行比较宗教学伦理研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LoRA微调 比较宗教学伦理 伦理推理 跨文化分析

📋 核心要点

  1. 现有伦理研究缺乏对不同宗教伦理体系进行量化和比较分析的有效工具。
  2. 利用LoRA微调技术,构建了基于不同宗教文本训练的语言模型,以捕捉其独特的伦理推理模式。
  3. 实验表明,LoRA适配模型能够产生与其训练传统一致的伦理推理,并在道德哲学空间中呈现可解释的维度。

📝 摘要(中文)

本文提出了Six Llamas,一项比较研究,旨在检验在不同宗教语料库上微调的大型语言模型是否编码了系统性不同的伦理推理模式。构建了Meta-Llama-3.1-8B的六个变体:一个未修改的对照模型和五个LoRA适配模型,分别仅使用基督教、伊斯兰教、犹太教、印度教或佛教的神圣和神学文本进行训练。所有六个模型都使用包含道德困境、博弈论场景、公共政策问题和道德心理自我评估的17个标准化伦理提示进行探测。为了评估鲁棒性和可重复性,我们实施了一个跨越十个温度设置的多温度采样设计。我们计算了响应一致性指标、成对模型间一致率、跨四个提示领域的温度敏感性系数以及运行间稳定性分析。研究结果表明,LoRA适配模型产生的伦理推理模式(a)与基础模型系统性地区分,(b)与其训练传统的道德逻辑一致,(c)在道德哲学空间中沿着可解释的维度构建,(d)对于高共识困境,核心伦理立场在温度变化中保持稳定。“电车难题”在所有模型和温度下均达到100%的一致性,同时(e)在道德上有争议的领域,传统特定的差异在较高温度下加剧,并且(f)基础模型表现出最高的整体响应一致性(平均88.3%),表明LoRA适配既引入了传统特定的信号,又增加了采样敏感性。该研究为使用差异训练的语言模型作为文化和伦理分析工具的冷凝比较方法提供了一个概念验证,并确定了证伪的具体标准和计划扩展。

🔬 方法详解

问题定义:论文旨在解决如何利用大型语言模型对不同宗教的伦理体系进行比较研究的问题。现有方法难以量化不同宗教伦理观的差异,缺乏有效的工具进行跨文化伦理分析。

核心思路:核心思路是使用LoRA(Low-Rank Adaptation)技术,针对Meta-Llama-3.1-8B模型,分别在基督教、伊斯兰教、犹太教、印度教和佛教的语料库上进行微调,从而使每个模型都具备特定宗教的伦理推理能力。通过比较这些微调模型在相同伦理问题上的反应,可以量化不同宗教伦理观的差异。

技术框架:整体框架包括以下几个阶段:1) 数据收集:收集不同宗教的神圣和神学文本。2) 模型构建:使用LoRA技术微调Meta-Llama-3.1-8B模型,得到六个模型(一个基础模型和五个宗教特定模型)。3) 伦理提示设计:设计包含道德困境、博弈论场景、公共政策问题和道德心理自我评估的17个标准化伦理提示。4) 模型推理:使用不同温度设置(10个温度)对所有模型进行推理,记录模型对伦理提示的响应。5) 结果分析:计算响应一致性指标、模型间一致率、温度敏感性系数和运行间稳定性,分析不同模型在伦理推理上的差异。

关键创新:关键创新在于使用LoRA微调技术,将大型语言模型作为一种工具,用于比较不同宗教的伦理体系。这种方法提供了一种量化的方式来研究文化和伦理差异,并为跨文化伦理分析提供了一个新的视角。

关键设计:关键设计包括:1) 使用LoRA进行参数高效的微调,避免了对整个模型进行训练,降低了计算成本。2) 使用多温度采样设计,评估模型在不同随机性下的响应。3) 设计了一套全面的伦理提示,涵盖了不同的伦理领域。4) 使用多种指标来评估模型的响应一致性和模型间的差异。

📊 实验亮点

实验结果表明,LoRA适配模型能够产生与其训练传统一致的伦理推理模式。例如,“电车难题”在所有模型和温度下均达到100%的一致性。在道德上有争议的领域,传统特定的差异在较高温度下加剧。基础模型表现出最高的整体响应一致性(平均88.3%),表明LoRA适配引入了传统特定的信号,但也增加了采样敏感性。

🎯 应用场景

该研究成果可应用于跨文化交流、伦理决策支持、宗教研究等领域。通过理解不同宗教伦理观的差异,可以促进跨文化理解和合作。此外,该方法还可以用于评估人工智能系统的伦理风险,确保其符合不同文化背景下的伦理规范。未来,该研究可以扩展到更多文化和伦理体系,为构建更加公正和包容的社会做出贡献。

📄 摘要(原文)

We present Six Llamas, a comparative study examining whether large language models fine-tuned on distinct religious corpora encode systematically different patterns of ethical reasoning. Six variants of Meta-Llama-3.1-8B are constructed: one unmodified control and five LoRA-adapted models trained exclusively on the sacred and theological texts of Christianity, Islam, Judaism, Hinduism, or Buddhism. All six models are probed with an identical battery of 17 standardized ethical prompts spanning moral dilemmas, game-theoretic scenarios, public policy questions, and moral-psychological self-assessments. To assess robustness and reproducibility, we implement a multi-temperature sampling design spanning ten temperature settings. We compute response consistency metrics, pairwise inter-model agreement rates, temperature sensitivity coefficients across four prompt domains, and run-to-run stability analyses. Findings show that LoRA-adapted models produce ethical reasoning patterns that are (a) systematically differentiated from the base model, (b) consistent with the moral logics of their training traditions, (c) structured along interpretable dimensions in moral-philosophical space, (d) core ethical positions remain stable across temperature variations for high-consensus dilemmas. The Trolley Problem achieves 100% consistency across all models and temperatures, while (e) tradition-specific divergence intensifies at higher temperatures in morally contested domains, and (f) the base model exhibits the highest overall response consistency (mean 88.3%), suggesting LoRA adaptation introduces both tradition-specific signal and increased sampling sensitivity. The study offers a proof-of-concept for the condensate comparative method using differentially trained language models as instruments for cultural and ethical analysis and identifies specific criteria for falsification and planned extensions.