Risk Profiling and Modulation for LLMs

📄 arXiv: 2509.23058v3 📥 PDF

作者: Yikai Wang, Xiaocheng Li, Guanting Chen

分类: cs.AI, cs.LG

发布日期: 2025-09-27 (更新: 2025-10-07)


💡 一句话要点

提出LLM风险画像与调控流程,探索后训练对风险偏好的影响

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 风险偏好 行为经济学 效用理论 后训练 指令调整 RLHF 风险画像

📋 核心要点

  1. 现有研究对LLM在不确定性决策中的风险偏好探索不足,尤其缺乏对后训练影响的深入理解。
  2. 论文提出一个新颖的流程,利用行为经济学工具,对LLM的风险画像进行引出、引导和调控。
  3. 实验表明,指令调整模型符合效用理论,而后训练能最稳定有效地调控LLM的风险偏好。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地用于不确定性下的决策任务;然而,它们的风险画像以及它们如何受到提示和对齐方法的影响仍未被充分探索。现有的研究主要集中在个性化提示或多智能体交互上,后训练如何影响LLMs的风险行为仍然是一个开放的问题。在这项工作中,我们提出了一种新的流程,用于引出、引导和调控LLMs的风险画像,借鉴了行为经济学和金融学的工具。使用效用理论模型,我们比较了预训练、指令调整和RLHF对齐的LLMs,发现虽然指令调整模型表现出与某些标准效用公式一致的行为,但预训练和RLHF对齐的模型与任何拟合的效用模型都有更大的偏差。我们进一步评估了调控策略,包括提示工程、上下文学习和后训练,并表明后训练提供了最稳定和有效的风险偏好调控。我们的发现为了解不同类别和阶段的LLMs的风险画像提供了见解,并展示了后训练如何调控这些画像,为未来关于行为对齐和风险感知LLM设计的研究奠定了基础。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在不确定性决策任务中的风险偏好问题。现有方法主要集中在提示工程或多智能体交互,忽略了后训练(如指令调整和RLHF)对LLM风险行为的系统性影响。因此,如何理解、控制和调整LLM的风险偏好成为一个重要的研究问题。

核心思路:论文的核心思路是借鉴行为经济学和金融学的效用理论,将LLM的决策行为建模为效用最大化过程。通过设计特定的实验场景,引出LLM在不同风险情境下的选择,并使用效用函数拟合其行为,从而刻画其风险偏好。然后,研究不同的训练方法(预训练、指令调整、RLHF)以及调控策略(提示工程、上下文学习、后训练)对风险偏好的影响。

技术框架:论文提出的流程主要包含三个阶段:1) 风险画像引出:设计一系列决策场景,让LLM在不同风险水平下做出选择;2) 风险偏好建模:使用效用理论模型(如幂效用函数、指数效用函数)拟合LLM的决策行为,得到其风险偏好参数;3) 风险偏好调控:研究不同的训练方法和调控策略对风险偏好参数的影响。

关键创新:论文的关键创新在于:1) 提出了一个系统性的LLM风险画像与调控流程,结合了行为经济学和LLM研究;2) 首次比较了不同训练阶段(预训练、指令调整、RLHF)的LLM的风险偏好差异;3) 证明了后训练是调控LLM风险偏好的最有效手段。

关键设计:论文的关键设计包括:1) 精心设计的决策场景,确保能够有效引出LLM的风险偏好;2) 选用了多种常用的效用函数,以更好地拟合LLM的决策行为;3) 详细对比了不同调控策略的效果,并分析了其原因。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,指令调整后的LLM表现出与效用理论一致的行为,而预训练和RLHF对齐的模型则偏离效用模型。后训练(如指令调整和RLHF)是调控LLM风险偏好的最有效手段,相比提示工程和上下文学习,能够更稳定地改变LLM的风险偏好。

🎯 应用场景

该研究成果可应用于对LLM进行行为对齐,使其在金融、医疗等高风险决策场景中表现出更符合人类价值观的风险偏好。此外,该研究也为开发风险感知的LLM提供了理论基础,有助于构建更安全、可靠的人工智能系统,并提升人机协作效率。

📄 摘要(原文)

Large language models (LLMs) are increasingly used for decision-making tasks under uncertainty; however, their risk profiles and how they are influenced by prompting and alignment methods remain underexplored. Existing studies have primarily examined personality prompting or multi-agent interactions, leaving open the question of how post-training influences the risk behavior of LLMs. In this work, we propose a new pipeline for eliciting, steering, and modulating LLMs' risk profiles, drawing on tools from behavioral economics and finance. Using utility-theoretic models, we compare pre-trained, instruction-tuned, and RLHF-aligned LLMs, and find that while instruction-tuned models exhibit behaviors consistent with some standard utility formulations, pre-trained and RLHF-aligned models deviate more from any utility models fitted. We further evaluate modulation strategies, including prompt engineering, in-context learning, and post-training, and show that post-training provides the most stable and effective modulation of risk preference. Our findings provide insights into the risk profiles of different classes and stages of LLMs and demonstrate how post-training modulates these profiles, laying the groundwork for future research on behavioral alignment and risk-aware LLM design.