Letting Tutor Personas "Speak Up" for LLMs: Learning Steering Vectors from Dialogue via Preference Optimization

📄 arXiv: 2602.07639v1 📥 PDF

作者: Jaewook Lee, Alexander Scarlatos, Simon Woodhead, Andrew Lan

分类: cs.CL

发布日期: 2026-02-07


💡 一句话要点

提出基于偏好优化的对话转向向量学习方法,实现LLM导师角色定制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 个性化辅导 转向向量 偏好优化 对话生成

📋 核心要点

  1. 现有基于LLM的辅导系统缺乏对不同导师风格的建模,限制了其在实际教学场景中的应用。
  2. 论文提出通过学习转向向量,在LLM的激活空间中引导模型生成特定导师风格的回复。
  3. 实验表明,该方法能有效捕捉导师间的差异,提高语义对齐和偏好评估,同时保持词汇相似性。

📝 摘要(中文)

随着大型语言模型(LLM)作为一种强大的生成式人工智能(AI)的兴起,它们在辅导领域的应用日益突出。以往基于LLM的辅导工作通常学习单一的辅导策略,无法捕捉辅导风格的多样性。在真实的师生互动中,教学意图是通过适应性教学策略来实现的,导师会根据学习者的需求调整支架搭建、教学指导、反馈和情感支持的程度。这些差异都会影响对话动态和学生的参与度。本文探讨了如何利用嵌入在人类师生对话中的导师角色来指导LLM的行为,而无需依赖明确的提示指令。我们修改了双向偏好优化(BiPO)来学习转向向量,这是一种激活空间方向,可以将模型响应导向特定的导师角色。我们发现,这种转向向量捕捉了不同对话背景下导师的特定变化,提高了与真实导师话语的语义对齐,并增加了基于偏好的评估,同时在很大程度上保留了词汇相似性。对学习到的方向系数的分析进一步揭示了不同导师之间可解释的结构,对应于辅导行为的持续差异。这些结果表明,激活转向提供了一种有效且可解释的方法,可以使用直接从人类对话数据中获得的信号来控制LLM中特定于导师的变化。

🔬 方法详解

问题定义:现有基于LLM的辅导系统通常采用单一策略,无法模拟真实教学中导师风格的多样性。这导致模型在不同学生和教学场景下的适应性不足,难以提供个性化的辅导体验。现有方法依赖于显式的提示工程来控制LLM的行为,但这种方法需要大量的人工设计和调整,且难以泛化到新的导师角色。

核心思路:论文的核心思路是通过学习一个转向向量,在LLM的激活空间中引导模型的行为,使其生成特定导师风格的回复。该转向向量代表了不同导师在对话中的行为差异,通过优化模型使其沿着该向量的方向进行调整,从而实现导师角色的定制。这种方法避免了显式的提示工程,而是直接从人类师生对话数据中学习导师的风格。

技术框架:该方法基于双向偏好优化(BiPO)框架,通过比较不同导师的回复,学习一个转向向量。整体流程如下:1) 从人类师生对话数据中提取不同导师的对话样本;2) 使用LLM生成多个候选回复;3) 使用偏好模型对候选回复进行排序,判断哪个回复更符合目标导师的风格;4) 使用BiPO算法优化LLM,使其生成的回复更接近目标导师的风格。

关键创新:该方法最重要的创新点在于提出了使用转向向量来控制LLM的行为,从而实现导师角色的定制。与传统的提示工程方法相比,该方法能够自动地从人类对话数据中学习导师的风格,无需人工干预。此外,该方法还能够捕捉不同对话背景下导师的特定变化,从而提高模型的适应性。

关键设计:论文修改了BiPO算法,使其能够学习一个转向向量。该转向向量是一个与LLM激活空间维度相同的向量,代表了目标导师的风格。在生成回复时,模型会沿着该向量的方向进行调整,从而生成更符合目标导师风格的回复。论文还设计了一个偏好模型,用于对候选回复进行排序。该偏好模型基于Transformer架构,输入是对话上下文和候选回复,输出是一个表示回复质量的标量值。损失函数采用标准的BiPO损失函数,旨在最大化目标导师回复的偏好概率。

📊 实验亮点

实验结果表明,该方法能够有效捕捉导师间的差异,提高与真实导师话语的语义对齐,并增加基于偏好的评估。具体而言,该方法在语义对齐指标上取得了显著提升,同时在很大程度上保留了词汇相似性。对学习到的方向系数的分析进一步揭示了不同导师之间可解释的结构,对应于辅导行为的持续差异。

🎯 应用场景

该研究成果可应用于构建个性化智能辅导系统,根据学生的学习风格和需求,选择合适的导师角色进行辅导。此外,该方法还可用于生成具有特定风格的对话机器人,例如客服机器人、心理咨询机器人等,从而提高用户体验和满意度。未来,该技术有望扩展到其他领域,例如内容创作、游戏AI等,实现更加个性化和智能化的内容生成。

📄 摘要(原文)

With the emergence of large language models (LLMs) as a powerful class of generative artificial intelligence (AI), their use in tutoring has become increasingly prominent. Prior works on LLM-based tutoring typically learn a single tutor policy and do not capture the diversity of tutoring styles. In real-world tutor-student interactions, pedagogical intent is realized through adaptive instructional strategies, with tutors varying the level of scaffolding, instructional directiveness, feedback, and affective support in response to learners' needs. These differences can all impact dialogue dynamics and student engagement. In this paper, we explore how tutor personas embedded in human tutor-student dialogues can be used to guide LLM behavior without relying on explicitly prompted instructions. We modify Bidirectional Preference Optimization (BiPO) to learn a steering vector, an activation-space direction that steers model responses towards certain tutor personas. We find that this steering vector captures tutor-specific variation across dialogue contexts, improving semantic alignment with ground-truth tutor utterances and increasing preference-based evaluations, while largely preserving lexical similarity. Analysis of the learned directional coefficients further reveals interpretable structure across tutors, corresponding to consistent differences in tutoring behavior. These results demonstrate that activation steering offers an effective and interpretable way for controlling tutor-specific variation in LLMs using signals derived directly from human dialogue data.