Optimal Policy Design for Repeated Decision-Making under Social Influence

📄 arXiv: 2503.03657v1 📥 PDF

作者: Chiara Ravazzi, Valentina Breschi, Paolo Frasca, Fabrizio Dabbene, Mara Tanelli

分类: eess.SY, cs.SI

发布日期: 2025-03-05


💡 一句话要点

针对社会影响下重复决策,提出最优策略设计方法以促进良性选择。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 社会影响 重复决策 最优控制 模型预测控制 社会网络 策略设计

📋 核心要点

  1. 现有方法难以有效建模个体在社会影响下的重复决策过程,尤其是在考虑个体差异和外部干预的情况下。
  2. 论文核心在于构建一个扩展的社会影响模型,同时考虑个体决策、社会模仿、随机因素和可控外部输入。
  3. 通过模型预测控制框架,论文设计了最优控制策略,仿真结果验证了该策略在促进良性选择方面的有效性。

📝 摘要(中文)

本文提出了一种新颖的模型,用于描述重复决策场景中个体的行为倾向。目标是设计基于模型的控制策略,以在社会和外部影响下促进良性选择。该方法基于经典的Friedkin和Johnsen社会影响模型,并将其扩展到包括随机因素(例如,个体需求的内在可变性)和可控的外部输入。我们明确考虑了影响观点动态的两个过程之间的时间间隔:个体决策和社会模仿。个体决策发生在有规律的、频繁的时间间隔,而社会模仿的影响则在较长的时间内展开。随机因素的包含自然导致了不收敛的动态。然而,在特定条件下,我们证明了观点表现出遍历行为。基于此结果,我们提出了一个约束渐近最优控制问题,旨在平均而言,促进网络中目标行为的社会接受度。为了解决观点的瞬态动态,我们在模型预测控制(MPC)框架内重新构建了这个问题。仿真结果突出了在引导个体做出良性选择同时管理策略成本时,考虑这些瞬态效应的重要性。

🔬 方法详解

问题定义:论文旨在解决在社会影响下,如何设计最优策略来引导个体进行重复决策,从而促进良性选择的问题。现有方法通常难以处理个体差异、外部干预以及个体决策和社会模仿之间的时间差异,导致控制效果不佳。

核心思路:论文的核心思路是构建一个扩展的Friedkin和 Johnsen社会影响模型,该模型不仅考虑了社会影响,还引入了随机因素(代表个体差异)和可控的外部输入(代表策略干预)。通过控制外部输入,可以影响个体决策,从而在社会网络中推广目标行为。

技术框架:整体框架包括以下几个主要部分:1) 扩展的社会影响模型,用于描述个体观点随时间演化的动态;2) 约束渐近最优控制问题,旨在找到使目标行为的社会接受度最大化的控制策略;3) 模型预测控制(MPC)框架,用于处理观点的瞬态动态,并在有限时间内优化控制策略。该框架通过迭代预测和优化,实现对个体决策的有效引导。

关键创新:论文的关键创新在于:1) 将经典的社会影响模型扩展到包含随机因素和可控外部输入,更真实地反映了现实场景;2) 明确考虑了个体决策和社会模仿之间的时间间隔,提高了模型的准确性;3) 将渐近最优控制问题与MPC框架相结合,实现了对瞬态动态的有效控制。

关键设计:关键设计包括:1) 随机因素的建模,例如使用高斯分布来表示个体需求的内在可变性;2) 外部输入的选择,例如可以通过信息宣传或奖励机制来影响个体决策;3) 损失函数的设计,需要平衡目标行为的社会接受度和策略成本;4) MPC框架中的预测模型和优化算法的选择,需要根据具体问题进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,所提出的最优控制策略能够有效地引导个体做出良性选择,同时控制策略成本。与不考虑瞬态效应的策略相比,基于MPC的策略能够更快地达到目标状态,并减少不必要的干预,从而降低策略成本。具体性能提升数据未知,但仿真结果验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于公共卫生、环境保护、在线社区管理等领域。例如,可以设计策略来提高疫苗接种率、推广节能减排行为、引导在线社区的积极讨论氛围。通过精准干预,促进社会朝着期望的方向发展,具有重要的社会价值和应用前景。

📄 摘要(原文)

In this paper, we present a novel model to characterize individual tendencies in repeated decision-making scenarios, with the goal of designing model-based control strategies that promote virtuous choices amidst social and external influences. Our approach builds on the classical Friedkin and Johnsen model of social influence, extending it to include random factors (e.g., inherent variability in individual needs) and controllable external inputs. We explicitly account for the temporal separation between two processes that shape opinion dynamics: individual decision-making and social imitation. While individual decisions occur at regular, frequent intervals, the influence of social imitation unfolds over longer periods. The inclusion of random factors naturally leads to dynamics that do not converge in the classical sense. However, under specific conditions, we prove that opinions exhibit ergodic behavior. Building on this result, we propose a constrained asymptotic optimal control problem designed to foster, on average, social acceptance of a target action within a network. To address the transient dynamics of opinions, we reformulate this problem within a Model Predictive Control (MPC) framework. Simulations highlight the significance of accounting for these transient effects in steering individuals toward virtuous choices while managing policy costs.