Fusian: Multi-LoRA Fusion for Fine-Grained Continuous MBTI Personality Control in Large Language Models

📄 arXiv: 2603.15405v1 📥 PDF

作者: Zehao Chen, Rong Pan

分类: cs.CL

发布日期: 2026-03-16


💡 一句话要点

Fusian:多LoRA融合实现大语言模型中细粒度连续MBTI人格控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 人格控制 LoRA 强化学习 连续控制 微调 适配器融合

📋 核心要点

  1. 现有性格控制方法将人格特征视为离散类别,无法精确控制特征在连续谱上的强度。
  2. Fusian通过收集SFT过程中的LoRA适配器序列,并使用强化学习动态融合这些适配器,实现细粒度控制。
  3. 实验表明,Fusian在性格控制精度上显著优于基线方法,能更好地与用户指定的特征强度对齐。

📝 摘要(中文)

大型语言模型(LLM)在模拟各种人类行为和人格方面表现出了令人印象深刻的能力。然而,现有的性格控制方法,包括提示工程和标准监督微调(SFT),通常将性格特征视为离散类别(例如,“外向”与“内向”),缺乏在连续谱上精确控制特征强度的能力。本文介绍了一种名为Fusian的新框架,用于LLM中细粒度的连续性格控制。Fusian分两个阶段运行:(1)轨迹收集,通过保存一系列LoRA适配器来捕获SFT期间性格采纳的动态演变,有效地映射特征的连续流形;(2)基于RL的动态融合,使用强化学习训练策略网络,以动态计算这些冻结适配器的混合权重。通过从策略网络参数化的Dirichlet分布中采样,Fusian融合多个适配器,使模型的输出与特定的数值目标强度对齐。在Qwen3-14B模型上的实验表明,Fusian在性格控制方面实现了高精度,在与用户指定的特征强度对齐方面显著优于基线方法。

🔬 方法详解

问题定义:现有的大语言模型人格控制方法,如提示工程和监督微调,通常将人格特质视为离散的类别,例如内向或外向。这种处理方式无法实现对人格特质强度的精细控制,缺乏在连续谱上调整人格表现的能力。因此,如何实现对大语言模型人格特质的连续、细粒度控制是一个重要的挑战。

核心思路:Fusian的核心思路是通过监督微调(SFT)过程中LoRA适配器的动态演化来捕捉人格特质的连续变化。具体来说,在SFT过程中,定期保存LoRA适配器,形成一个适配器序列,代表了人格特质从弱到强的变化轨迹。然后,利用强化学习训练一个策略网络,该网络能够根据目标人格特质强度,动态地计算这些LoRA适配器的融合权重。

技术框架:Fusian框架包含两个主要阶段:轨迹收集和基于RL的动态融合。在轨迹收集阶段,使用SFT训练模型,并定期保存LoRA适配器。在基于RL的动态融合阶段,使用强化学习训练一个策略网络,该网络以目标人格特质强度为输入,输出一个Dirichlet分布的参数,从该分布中采样得到LoRA适配器的融合权重。然后,将这些适配器按照采样得到的权重进行融合,得到最终的模型。

关键创新:Fusian的关键创新在于将人格特质的连续变化映射到LoRA适配器的序列上,并利用强化学习动态地融合这些适配器。这种方法能够实现对人格特质强度的精细控制,克服了现有方法只能处理离散人格类别的局限性。与直接微调相比,LoRA方法参数量更少,训练效率更高。

关键设计:在轨迹收集阶段,需要确定保存LoRA适配器的频率。在基于RL的动态融合阶段,策略网络的设计至关重要,需要选择合适的网络结构和损失函数。策略网络以目标人格特质强度作为输入,输出Dirichlet分布的参数,用于采样LoRA适配器的融合权重。强化学习的奖励函数需要精心设计,以鼓励模型输出与目标人格特质强度相符的结果。具体参数设置和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Fusian在Qwen3-14B模型上实现了高精度的人格控制,显著优于基线方法。Fusian能够准确地将模型的输出与用户指定的特征强度对齐,证明了其在连续人格控制方面的有效性。具体的性能提升数据未知。

🎯 应用场景

Fusian框架可应用于各种需要精细人格控制的场景,例如虚拟助手、游戏角色、心理治疗等。通过调整人格特质的强度,可以使虚拟角色更具个性化,更好地满足用户的需求。此外,该方法还可以用于研究人格特质与语言表达之间的关系,为心理学研究提供新的工具。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated impressive capabilities in simulating diverse human behaviors and personalities. However, existing methods for personality control, which include prompt engineering and standard Supervised Fine-Tuning (SFT), typically treat personality traits as discrete categories (e.g., "Extroverted" vs. "Introverted"), lacking the ability to precisely control the intensity of a trait on a continuous spectrum. In this paper, we introduce Fusian, a novel framework for fine-grained, continuous personality control in LLMs. Fusian operates in two stages: (1) Trajectory Collection, where we capture the dynamic evolution of personality adoption during SFT by saving a sequence of LoRA adapters, effectively mapping the continuous manifold of a trait; and (2) RL-based Dynamic Fusion, where we train a policy network using Reinforcement Learning to dynamically compute mixing weights for these frozen adapters. By sampling from a Dirichlet distribution parameterized by the policy network, Fusian fuses multiple adapters to align the model's output with a specific numerical target intensity. Experiments on the Qwen3-14B model demonstrate that Fusian achieves high precision in personality control, significantly outperforming baseline methods in aligning with user-specified trait intensities.