Aligning Large Language Model Agents with Rational and Moral Preferences: A Supervised Fine-Tuning Approach

作者: Wei Lu, Daniel L. Chen, Christian B. Hansen

分类: econ.GN, cs.AI, cs.LG

发布日期: 2025-07-28

💡 一句话要点

通过监督微调对齐大语言模型智能体与理性和道德偏好

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 智能体 偏好对齐 监督微调 经济博弈 道德推理 合成数据 算法定价

📋 核心要点

现有大语言模型智能体在策略互动中与人类行为存在偏差，尤其是在经济和道德决策方面，需要对其偏好进行校准。
论文提出一种监督微调流程，利用经济推理生成的合成数据集，使LLM智能体与特定的经济和道德偏好对齐。
实验表明，通过少量数据微调可以有效改变LLM智能体的行为，使其更符合经济人或道德人的偏好，并在道德困境和算法定价等应用中产生影响。

📝 摘要（中文）

随着大语言模型(LLM)智能体越来越多地自主参与具有经济和道德影响的决策，理解它们在策略互动中的行为至关重要。我们使用典型的经济博弈评估LLM的偏好，发现其行为与人类存在显著偏差。像GPT-4o这样的模型表现出过度合作和有限的激励敏感性，而像o3-mini这样的推理模型则更符合收益最大化策略。我们提出了一种监督微调流程，使用源自经济推理的合成数据集，使LLM智能体与经济偏好对齐，重点关注两种程式化的偏好结构。第一种是效用仅取决于个人收益（经济人），第二种是效用还取决于康德普遍性概念（道德人）。我们发现，基于小型数据集的微调将LLM智能体的行为转变为相应的经济智能体。我们进一步评估了微调后的智能体在两个应用中的行为：涉及自动驾驶汽车的道德困境和竞争市场中的算法定价。这些例子说明了通过结构化偏好结构实现的不同规范目标如何影响市场和道德结果。这项工作贡献了一个可复制、经济高效且具有经济基础的流程，可以使用道德经济原则来对齐AI偏好。

🔬 方法详解

问题定义：论文旨在解决大语言模型智能体在经济和道德决策中与人类理性行为不一致的问题。现有方法缺乏有效且经济的方式来校准LLM智能体的偏好，使其符合特定的经济或道德原则。LLM在策略互动中可能表现出过度合作或对激励不敏感等非理性行为，导致次优或不道德的结果。

核心思路：论文的核心思路是通过监督微调，使用合成数据集来引导LLM智能体学习特定的经济或道德偏好。通过构建具有明确偏好结构的合成数据，可以有效地训练LLM智能体，使其在决策时遵循相应的原则。这种方法避免了直接使用人类数据进行训练，从而降低了成本并提高了可控性。

技术框架：该方法包含以下主要阶段：1) 定义目标偏好结构（例如，经济人或道德人）；2) 基于目标偏好结构生成合成数据集，其中包含策略互动场景和相应的最优决策；3) 使用合成数据集对LLM智能体进行监督微调；4) 在实际应用场景（例如，道德困境或算法定价）中评估微调后的智能体的行为。

关键创新：该方法的关键创新在于使用合成数据集进行偏好对齐。与传统的基于人类数据的微调方法相比，合成数据具有更高的可控性和可扩展性，可以针对特定的经济或道德原则进行定制。此外，该方法还提出了一种基于康德普遍性概念的道德偏好结构，为LLM智能体的道德推理提供了一种新的建模方式。

关键设计：在合成数据生成方面，论文设计了不同的策略互动场景，例如囚徒困境和公共物品博弈。对于经济人偏好，效用函数仅取决于个人收益；对于道德人偏好，效用函数还包括基于康德普遍性原则的道德考量。微调过程使用标准的监督学习方法，目标是最小化LLM智能体的预测决策与合成数据集中的最优决策之间的差异。具体的损失函数和网络结构细节未在摘要中明确说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过少量合成数据进行微调可以显著改变LLM智能体的行为。例如，经过经济人偏好微调的LLM智能体在策略互动中表现出更高的激励敏感性和更少的合作倾向。在道德困境应用中，不同偏好结构的LLM智能体做出了不同的决策，反映了其内在的道德价值观。这些结果验证了该方法的有效性和灵活性。

🎯 应用场景

该研究成果可应用于多个领域，包括自动驾驶汽车的道德决策、算法定价策略的公平性设计、以及其他涉及人工智能自主决策的场景。通过对齐AI的偏好，可以确保其行为符合人类的价值观和伦理规范，从而提高社会福祉和降低潜在风险。未来的研究可以进一步探索更复杂的偏好结构和更有效的对齐方法。

📄 摘要（原文）

Understanding how large language model (LLM) agents behave in strategic interactions is essential as these systems increasingly participate autonomously in economically and morally consequential decisions. We evaluate LLM preferences using canonical economic games, finding substantial deviations from human behavior. Models like GPT-4o show excessive cooperation and limited incentive sensitivity, while reasoning models, such as o3-mini, align more consistently with payoff-maximizing strategies. We propose a supervised fine-tuning pipeline that uses synthetic datasets derived from economic reasoning to align LLM agents with economic preferences, focusing on two stylized preference structures. In the first, utility depends only on individual payoffs (homo economicus), while utility also depends on a notion of Kantian universalizability in the second preference structure (homo moralis). We find that fine-tuning based on small datasets shifts LLM agent behavior toward the corresponding economic agent. We further assess the fine-tuned agents' behavior in two applications: Moral dilemmas involving autonomous vehicles and algorithmic pricing in competitive markets. These examples illustrate how different normative objectives embedded via realizations from structured preference structures can influence market and moral outcomes. This work contributes a replicable, cost-efficient, and economically grounded pipeline to align AI preferences using moral-economic principles.

Aligning Large Language Model Agents with Rational and Moral Preferences: A Supervised Fine-Tuning Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理