Risk Profiling and Modulation for LLMs

📄 arXiv: 2509.23058v3 📥 PDF

作者: Yikai Wang, Xiaocheng Li, Guanting Chen

分类: cs.AI, cs.LG

发布日期: 2025-09-27 (更新: 2025-10-07)


💡 一句话要点

提出LLM风险画像与调控框架,揭示不同训练阶段模型的风险偏好差异

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 风险偏好 行为经济学 效用理论 指令微调 RLHF 风险调控

📋 核心要点

  1. 现有研究对LLM在不确定性决策中的风险偏好探索不足,尤其缺乏对后训练影响的深入理解。
  2. 论文提出一个新颖的框架,通过行为经济学和金融学工具,对LLM的风险偏好进行引出、引导和调控。
  3. 实验表明,指令微调模型更符合效用理论,而后训练是调控LLM风险偏好的最有效方法。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用于不确定性下的决策任务,但其风险偏好以及提示和对齐方法如何影响这些偏好仍未得到充分探索。现有研究主要集中于人格提示或多智能体交互,后训练如何影响LLM的风险行为仍是一个开放性问题。本文提出了一种新的流程,借鉴行为经济学和金融学的工具,用于引出、引导和调控LLM的风险偏好。利用效用理论模型,我们比较了预训练、指令微调和RLHF对齐的LLM,发现指令微调模型表现出与某些标准效用公式一致的行为,而预训练和RLHF对齐的模型与任何拟合的效用模型都有更大的偏差。我们进一步评估了调控策略,包括提示工程、上下文学习和后训练,并表明后训练提供了最稳定和有效的风险偏好调控。我们的研究结果深入了解了不同类别和阶段的LLM的风险偏好,并展示了后训练如何调控这些偏好,为未来行为对齐和风险感知的LLM设计奠定了基础。

🔬 方法详解

问题定义:论文旨在解决LLM在不确定性决策任务中的风险偏好问题,现有方法主要集中于人格提示或多智能体交互,忽略了后训练阶段(如指令微调和RLHF)对LLM风险行为的影响。因此,如何理解和调控不同训练阶段LLM的风险偏好成为一个关键问题。

核心思路:论文的核心思路是借鉴行为经济学和金融学的效用理论,将LLM的决策行为建模为效用最大化的过程。通过设计特定的实验场景,引出LLM在不同风险水平下的选择,并拟合相应的效用函数,从而刻画其风险偏好。然后,研究不同的调控策略(如提示工程、上下文学习和后训练)对LLM风险偏好的影响。

技术框架:整体框架包含三个主要阶段:1) 风险偏好引出:设计一系列决策场景,让LLM在不同风险水平下做出选择;2) 效用函数拟合:利用LLM的选择数据,拟合不同的效用函数(如CRRA、CARA等),评估LLM的风险偏好类型;3) 风险偏好调控:尝试不同的调控策略(提示工程、上下文学习、后训练),观察其对LLM风险偏好的影响。

关键创新:论文的关键创新在于:1) 将行为经济学和金融学的效用理论引入LLM风险偏好研究;2) 系统地比较了预训练、指令微调和RLHF对齐的LLM的风险偏好差异;3) 评估了多种风险偏好调控策略的效果,并发现后训练是最有效的调控手段。与现有方法相比,该研究更全面地考虑了LLM训练的不同阶段,并提供了更有效的风险偏好调控方法。

关键设计:在风险偏好引出阶段,设计了一系列二元彩票选择题,每个问题包含一个高风险高回报的选项和一个低风险低回报的选项。LLM需要选择其中一个选项。通过调整彩票的概率和回报,可以控制风险水平。在效用函数拟合阶段,使用了CRRA(Constant Relative Risk Aversion)和CARA(Constant Absolute Risk Aversion)等常见的效用函数,并使用最大似然估计方法拟合参数。在后训练调控阶段,使用了基于奖励模型的强化学习方法,通过调整奖励函数来引导LLM的风险偏好。

📊 实验亮点

实验结果表明,指令微调后的LLM表现出与CRRA效用函数更一致的行为,而后训练(特别是基于奖励模型的强化学习)能够有效地调控LLM的风险偏好。相比于提示工程和上下文学习,后训练提供了更稳定和可控的风险偏好调整。

🎯 应用场景

该研究成果可应用于风险敏感型LLM应用的设计,例如金融投资顾问、医疗诊断辅助等。通过理解和调控LLM的风险偏好,可以使其在不同场景下做出更符合用户需求的决策。此外,该研究也为行为对齐和安全LLM的开发提供了新的思路。

📄 摘要(原文)

Large language models (LLMs) are increasingly used for decision-making tasks under uncertainty; however, their risk profiles and how they are influenced by prompting and alignment methods remain underexplored. Existing studies have primarily examined personality prompting or multi-agent interactions, leaving open the question of how post-training influences the risk behavior of LLMs. In this work, we propose a new pipeline for eliciting, steering, and modulating LLMs' risk profiles, drawing on tools from behavioral economics and finance. Using utility-theoretic models, we compare pre-trained, instruction-tuned, and RLHF-aligned LLMs, and find that while instruction-tuned models exhibit behaviors consistent with some standard utility formulations, pre-trained and RLHF-aligned models deviate more from any utility models fitted. We further evaluate modulation strategies, including prompt engineering, in-context learning, and post-training, and show that post-training provides the most stable and effective modulation of risk preference. Our findings provide insights into the risk profiles of different classes and stages of LLMs and demonstrate how post-training modulates these profiles, laying the groundwork for future research on behavioral alignment and risk-aware LLM design.