Controlling Distributional Bias in Multi-Round LLM Generation via KL-Optimized Fine-Tuning

📄 arXiv: 2604.05756v1 📥 PDF

作者: Yanbei Jiang, Amr Keleg, Ryandito Diandaru, Jey Han Lau, Lea Frermann, Biaoyan Fang, Fajri Koto

分类: cs.CL

发布日期: 2026-04-07

备注: Accepted at ACL Main Conference


💡 一句话要点

提出KL优化微调框架,用于控制LLM多轮生成中的分布偏差

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 分布对齐 微调 指导令牌 属性控制

📋 核心要点

  1. 现有LLM在多轮生成任务中,难以有效控制输出的属性分布,无法满足特定场景下的需求。
  2. 提出KL优化微调框架,通过指导令牌校准和语义对齐,实现对LLM生成内容属性分布的精确控制。
  3. 实验结果表明,该方法在多个数据集上显著优于现有基线方法,实现了更精确的属性分布控制。

📝 摘要(中文)

本文研究了大型语言模型(LLM)在多轮生成中分布对齐的问题,即LLM在重复提示下能否生成符合目标分布的输出,例如反映真实世界统计或均匀分布。研究以职业背景下的性别、种族和情感属性为例,发现现成的LLM和包括提示工程和直接偏好优化在内的标准对齐技术,无法可靠地控制输出分布。为此,本文提出了一种新的微调框架,该框架结合了指导令牌校准和语义对齐。引入了混合目标函数,结合Kullback-Leibler散度来锚定潜在指导令牌的概率质量,以及Kahneman-Tversky优化来将这些令牌绑定到语义一致的响应。在六个不同的数据集上的实验表明,该方法显著优于基线,在属性生成任务中实现了精确的分布控制。

🔬 方法详解

问题定义:论文旨在解决LLM在多轮生成过程中,难以控制生成文本的属性分布(例如性别、种族、情感)的问题。现有的方法,如prompt engineering和Direct Preference Optimization,无法可靠地控制输出分布,导致生成结果与期望的真实世界分布或均匀分布存在偏差。这种偏差会影响LLM在公平性、可控性等方面的应用。

核心思路:论文的核心思路是通过微调LLM,使其能够更好地理解和利用“指导令牌”(steering tokens),从而控制生成文本的属性。具体来说,通过优化潜在指导令牌的概率分布,并将其与语义一致的响应绑定,从而实现对生成文本属性的精确控制。这种方法旨在克服现有方法在控制复杂属性分布方面的局限性。

技术框架:该框架包含两个主要组成部分:指导令牌校准和语义对齐。首先,通过Kullback-Leibler (KL) 散度来锚定潜在指导令牌的概率质量,确保这些令牌具有明确的语义含义。然后,使用Kahneman-Tversky Optimization将这些令牌绑定到语义一致的响应,确保生成的文本与指导令牌所代表的属性一致。整个框架通过微调LLM来实现。

关键创新:该方法的主要创新在于结合了指导令牌校准和语义对齐,并使用KL散度和Kahneman-Tversky Optimization来优化LLM的生成过程。与现有方法相比,该方法能够更精确地控制生成文本的属性分布,并且具有更好的鲁棒性。此外,该方法引入了混合目标函数,能够同时优化指导令牌的概率分布和生成文本的语义一致性。

关键设计:关键设计包括:1) 使用KL散度作为正则化项,约束指导令牌的概率分布,防止其过度拟合训练数据。2) 使用Kahneman-Tversky Optimization来优化生成文本的语义一致性,确保生成的文本与指导令牌所代表的属性一致。3) 设计混合目标函数,平衡指导令牌校准和语义对齐之间的关系。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在六个不同的数据集上显著优于基线方法,实现了更精确的属性分布控制。例如,在控制性别属性的任务中,该方法能够将生成文本中男性和女性的比例控制在接近目标分布的范围内,并且具有较高的语义一致性。与prompt engineering和Direct Preference Optimization等基线方法相比,该方法在属性控制的精度和鲁棒性方面均有显著提升。

🎯 应用场景

该研究成果可应用于需要控制生成文本属性的各种场景,例如生成具有特定情感色彩的文本、生成符合特定人口统计特征的文本等。在对话系统、内容生成、广告文案生成等领域具有潜在的应用价值。该研究有助于提高LLM的公平性、可控性和安全性,并促进LLM在更广泛的应用场景中的部署。

📄 摘要(原文)

While the real world is inherently stochastic, Large Language Models (LLMs) are predominantly evaluated on single-round inference against fixed ground truths. In this work, we shift the lens to distribution alignment: assessing whether LLMs, when prompted repeatedly, can generate outputs that adhere to a desired target distribution, e.g. reflecting real-world statistics or a uniform distribution. We formulate distribution alignment using the attributes of gender, race, and sentiment within occupational contexts. Our empirical analysis reveals that off-the-shelf LLMs and standard alignment techniques, including prompt engineering and Direct Preference Optimization, fail to reliably control output distributions. To bridge this gap, we propose a novel fine-tuning framework that couples Steering Token Calibration with Semantic Alignment. We introduce a hybrid objective function combining Kullback-Leibler divergence to anchor the probability mass of latent steering tokens and Kahneman-Tversky Optimization to bind these tokens to semantically consistent responses. Experiments across six diverse datasets demonstrate that our approach significantly outperforms baselines, achieving precise distributional control in attribute generation tasks.