Fusian: Multi-LoRA Fusion for Fine-Grained Continuous MBTI Personality Control in Large Language Models

作者: Zehao Chen, Rong Pan

分类: cs.CL

发布日期: 2026-03-16

💡 一句话要点

Fusian：多LoRA融合实现大语言模型中细粒度连续MBTI人格控制

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 人格控制 LoRA 强化学习 连续控制 微调 适配器融合

📋 核心要点

现有性格控制方法将人格特征视为离散类别，无法精确控制特征在连续谱上的强度。
Fusian通过收集SFT过程中的LoRA适配器序列，并使用强化学习动态融合这些适配器，实现细粒度控制。
实验表明，Fusian在性格控制精度上显著优于基线方法，能更好地与用户指定的特征强度对齐。

📝 摘要（中文）

大型语言模型（LLM）在模拟各种人类行为和人格方面表现出了令人印象深刻的能力。然而，现有的性格控制方法，包括提示工程和标准监督微调（SFT），通常将性格特征视为离散类别（例如，“外向”与“内向”），缺乏在连续谱上精确控制特征强度的能力。本文介绍了一种名为Fusian的新框架，用于LLM中细粒度的连续性格控制。Fusian分两个阶段运行：（1）轨迹收集，通过保存一系列LoRA适配器来捕获SFT期间性格采纳的动态演变，有效地映射特征的连续流形；（2）基于RL的动态融合，使用强化学习训练策略网络，以动态计算这些冻结适配器的混合权重。通过从策略网络参数化的Dirichlet分布中采样，Fusian融合多个适配器，使模型的输出与特定的数值目标强度对齐。在Qwen3-14B模型上的实验表明，Fusian在性格控制方面实现了高精度，在与用户指定的特征强度对齐方面显著优于基线方法。

🔬 方法详解

问题定义：现有的大语言模型人格控制方法，如提示工程和监督微调，通常将人格特质视为离散的类别，例如内向或外向。这种处理方式无法实现对人格特质强度的精细控制，缺乏在连续谱上调整人格表现的能力。因此，如何实现对大语言模型人格特质的连续、细粒度控制是一个重要的挑战。

核心思路：Fusian的核心思路是通过监督微调（SFT）过程中LoRA适配器的动态演化来捕捉人格特质的连续变化。具体来说，在SFT过程中，定期保存LoRA适配器，形成一个适配器序列，代表了人格特质从弱到强的变化轨迹。然后，利用强化学习训练一个策略网络，该网络能够根据目标人格特质强度，动态地计算这些LoRA适配器的融合权重。

技术框架：Fusian框架包含两个主要阶段：轨迹收集和基于RL的动态融合。在轨迹收集阶段，使用SFT训练模型，并定期保存LoRA适配器。在基于RL的动态融合阶段，使用强化学习训练一个策略网络，该网络以目标人格特质强度为输入，输出一个Dirichlet分布的参数，从该分布中采样得到LoRA适配器的融合权重。然后，将这些适配器按照采样得到的权重进行融合，得到最终的模型。

关键创新：Fusian的关键创新在于将人格特质的连续变化映射到LoRA适配器的序列上，并利用强化学习动态地融合这些适配器。这种方法能够实现对人格特质强度的精细控制，克服了现有方法只能处理离散人格类别的局限性。与直接微调相比，LoRA方法参数量更少，训练效率更高。

关键设计：在轨迹收集阶段，需要确定保存LoRA适配器的频率。在基于RL的动态融合阶段，策略网络的设计至关重要，需要选择合适的网络结构和损失函数。策略网络以目标人格特质强度作为输入，输出Dirichlet分布的参数，用于采样LoRA适配器的融合权重。强化学习的奖励函数需要精心设计，以鼓励模型输出与目标人格特质强度相符的结果。具体参数设置和网络结构细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Fusian在Qwen3-14B模型上实现了高精度的人格控制，显著优于基线方法。Fusian能够准确地将模型的输出与用户指定的特征强度对齐，证明了其在连续人格控制方面的有效性。具体的性能提升数据未知。

🎯 应用场景

Fusian框架可应用于各种需要精细人格控制的场景，例如虚拟助手、游戏角色、心理治疗等。通过调整人格特质的强度，可以使虚拟角色更具个性化，更好地满足用户的需求。此外，该方法还可以用于研究人格特质与语言表达之间的关系，为心理学研究提供新的工具。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated impressive capabilities in simulating diverse human behaviors and personalities. However, existing methods for personality control, which include prompt engineering and standard Supervised Fine-Tuning (SFT), typically treat personality traits as discrete categories (e.g., "Extroverted" vs. "Introverted"), lacking the ability to precisely control the intensity of a trait on a continuous spectrum. In this paper, we introduce Fusian, a novel framework for fine-grained, continuous personality control in LLMs. Fusian operates in two stages: (1) Trajectory Collection, where we capture the dynamic evolution of personality adoption during SFT by saving a sequence of LoRA adapters, effectively mapping the continuous manifold of a trait; and (2) RL-based Dynamic Fusion, where we train a policy network using Reinforcement Learning to dynamically compute mixing weights for these frozen adapters. By sampling from a Dirichlet distribution parameterized by the policy network, Fusian fuses multiple adapters to align the model's output with a specific numerical target intensity. Experiments on the Qwen3-14B model demonstrate that Fusian achieves high precision in personality control, significantly outperforming baseline methods in aligning with user-specified trait intensities.

Fusian: Multi-LoRA Fusion for Fine-Grained Continuous MBTI Personality Control in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理