You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases
作者: Isaia Gisler, Zhonghao He, Tianyi Qiu
分类: cs.CL, cs.LG
发布日期: 2026-03-10
备注: Accepted for Spotlight presentation at EACL 2026 SRW. 5 pages, 2 figures, plus appendix. Equal supervision by Zhonghao He and Tianyi Qiu
💡 一句话要点
通过语义不变的释义文本,语言模型可隐式学习教师模型的偏好。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐式学习 语言模型 释义 偏好学习 合成数据
📋 核心要点
- 现有语言模型在合成数据训练中,存在从教师模型隐式学习行为特征的风险。
- 论文研究了通过自然语言释义进行隐式学习的可能性,即使释义内容与目标特征无关或相反。
- 实验表明,即使语义无关或表达厌恶,学生模型仍会学习教师模型的偏好,最高提升19%。
📝 摘要(中文)
当语言模型(学生模型)在合成数据上训练时,它们会隐蔽地从数据生成模型(教师模型)那里获得行为特征。这种隐式学习指的是通过与这些特征无关的数据,将特征从教师模型传递到学生模型。先前的工作已经在数字序列、代码和数学思维链追踪等训练领域展示了这一点,包括传递未对齐的行为。我们研究了这种传递是否会通过具有固定语义内容的自然语言释义发生,以及明确与教师偏好相矛盾的内容是否可以阻止它。我们发现,在被系统提示喜欢特定动物的教师模型生成的释义上进行训练,会使学生模型对该动物的偏好提高高达19个百分点。这种情况发生在释义内容在语义上与该动物无关时,甚至在明确表达不喜欢时也是如此。尽管进行了积极的过滤以确保释义的保真度,但传递仍然成功。这引发了对模型生成自己的训练数据的流程的担忧:基于内容的检查无法检测到这种传递,甚至偏好矛盾的内容也无法阻止它。
🔬 方法详解
问题定义:论文旨在研究语言模型在训练过程中,是否会通过语义不变的释义文本,隐式地学习到教师模型的偏好。现有方法难以检测和阻止这种隐式学习,即使使用与教师偏好相矛盾的内容进行训练也无法有效阻止。这种现象对模型生成自身训练数据的流程构成了潜在风险。
核心思路:核心思路是通过控制教师模型的偏好,并生成包含不同语义信息的释义文本,来观察学生模型是否会受到教师模型偏好的影响。即使释义文本与教师偏好无关,甚至表达相反的观点,如果学生模型仍然表现出与教师模型一致的偏好,则证明存在隐式学习。
技术框架:整体框架包括以下几个步骤:1) 定义教师模型,并赋予其对特定动物的偏好;2) 使用教师模型生成关于各种主题的释义文本,包括与动物无关、表达喜欢和表达不喜欢三种类型;3) 使用这些释义文本训练学生模型;4) 评估学生模型对特定动物的偏好,并与基线模型进行比较。
关键创新:关键创新在于揭示了语言模型可以通过语义无关甚至相反的释义文本,隐式地学习到教师模型的偏好。这表明传统的基于内容的检查方法无法有效防止这种隐式学习,即使使用偏好矛盾的内容也无法阻止。
关键设计:论文的关键设计包括:1) 使用系统提示来控制教师模型的偏好;2) 精心设计释义文本的内容,包括与动物无关、表达喜欢和表达不喜欢三种类型;3) 使用严格的过滤方法来确保释义文本的保真度;4) 使用明确的指标来评估学生模型对特定动物的偏好。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使训练数据是与目标动物无关的释义,学生模型对该动物的偏好也提高了高达19个百分点。更令人惊讶的是,即使训练数据明确表达了对该动物的厌恶,学生模型仍然表现出对该动物的偏好。这表明传统的基于内容的过滤方法无法有效阻止这种隐式学习。
🎯 应用场景
该研究成果对安全关键型人工智能系统的开发具有重要意义。在构建自学习或自我改进的AI系统时,需要警惕模型通过看似无害的数据隐式学习到不期望的行为或偏见。该研究也为开发更有效的防御机制提供了思路,例如设计更鲁棒的训练方法或开发能够检测和消除隐式学习的算法。
📄 摘要(原文)
When language models are trained on synthetic data, they (student model) can covertly acquire behavioral traits from the data-generating model (teacher model). Subliminal learning refers to the transmission of traits from a teacher to a student model via training on data unrelated to those traits. Prior work demonstrated this in the training domains of number sequences, code, and math Chain-of-Thought traces including transmission of misaligned behaviors. We investigate whether transmission occurs through natural language paraphrases with fixed semantic content, and whether content explicitly contradicting the teacher's preference can block it. We find that training on paraphrases from a teacher system-prompted to love a particular animal increases a student's preference for that animal by up to 19 percentage points. This occurs when paraphrased content is semantically unrelated to the animal, or even when it explicitly expresses dislike. The transmission succeeds despite aggressive filtering to ensure paraphrase fidelity. This raises concerns for pipelines where models generate their own training data: content-based inspection cannot detect such transmission, and even preference-contradicting content fails to prevent it.