Cross-Lingual Steering for Figurative Language Generation

📄 arXiv: 2605.30443v1 📥 PDF

作者: Linfeng Liu, Tiffany Zhan, Louie Hong Yao, Saptarshi Ghosh, Tianyu Jiang

分类: cs.CL

发布日期: 2026-05-28

备注: 40 pages, 7 figures


💡 一句话要点

提出跨语言激活调控方法,探索并利用多语言LLM中比喻语言生成的通用信号。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言学习 比喻生成 激活调控 多语言LLM 自然语言生成

📋 核心要点

  1. 现有多语言LLM比喻生成能力强,但驱动该能力的内部信号是否跨语言通用性未知。
  2. 利用激活调控,通过比喻-字面激活差异估计比喻方向,并将其应用于跨语言生成。
  3. 实验表明,该方法在多种语言和模型中有效,且跨语言迁移能力强,尤其对德语效果显著。

📝 摘要(中文)

多语言大型语言模型能够生成比喻语言,但驱动这种行为的内部信号是特定于语言的还是可以在不同语言之间重用尚不清楚。本文使用激活调控作为探针,通过一种语言中比喻-字面激活差异来估计比喻类别的方向,并在生成过程中应用它。在五个比喻类别、六种语言和四个多语言LLM中,这些方向在其自身语言内可靠地进行调控,对于隐喻和明喻最为稳健。更重要的是,它们可以跨语言迁移:在一种语言中学习的方向在应用于另一种语言时会增加目标行为,其中德语是最容易接受的目标之一。更进一步,从其他语言组装的方向可以匹配甚至超过目标语言自身的原生方向,而移除这种共享成分会削弱原生调控。总之,这些结果为比喻生成的跨语言信号的可重用性提供了直接证据,但该信号依赖于目标语言。

🔬 方法详解

问题定义:论文旨在研究多语言大型语言模型(LLM)在生成比喻语言时,其内部信号是否具有跨语言的通用性。现有方法缺乏对这种跨语言信号的有效探索和利用,导致比喻生成能力在不同语言之间可能存在差异,且无法充分利用其他语言的知识来提升目标语言的比喻生成效果。

核心思路:论文的核心思路是利用“激活调控”(Activation Steering)技术,通过分析LLM在生成比喻和字面语言时的内部激活差异,提取出代表特定比喻类别的“方向向量”。然后,将这些方向向量应用于其他语言的生成过程,从而实现跨语言的比喻生成调控。核心假设是,如果比喻生成的内部信号具有跨语言的通用性,那么在一个语言中学习到的方向向量应该能够有效地调控其他语言的比喻生成。

技术框架:整体框架包含以下几个主要步骤: 1. 数据收集:收集包含比喻和字面表达的平行语料。 2. 激活提取:使用LLM分别生成比喻和字面表达,并提取模型内部的激活值。 3. 方向估计:计算比喻和字面表达激活值的差异,得到代表特定比喻类别的方向向量。 4. 跨语言调控:将学习到的方向向量应用于其他语言的生成过程,通过调整LLM的内部激活值来引导比喻生成。 5. 效果评估:评估跨语言调控后比喻生成的质量和数量,验证方向向量的跨语言迁移能力。

关键创新:论文的关键创新在于: 1. 跨语言比喻生成信号的发现:通过实验证明了多语言LLM中存在可跨语言迁移的比喻生成信号。 2. 激活调控技术的应用:首次将激活调控技术应用于跨语言比喻生成,并验证了其有效性。 3. 跨语言方向向量的组合:探索了将多个语言的方向向量组合起来,以提升目标语言比喻生成效果的方法。

关键设计: * 激活调控强度:通过调整方向向量的缩放比例来控制调控强度,需要仔细调整以避免过度或不足调控。 * 方向向量的组合方式:尝试了不同的方向向量组合方式,例如平均、加权平均等,以寻找最佳的组合策略。 * 评估指标:使用了多种评估指标,包括自动评估指标(如BLEU、ROUGE)和人工评估指标,以全面评估比喻生成的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过激活调控,可以在多种语言(包括英语、德语、西班牙语等)和模型(包括mBERT、XLM-RoBERTa等)中有效地控制比喻生成。更重要的是,在一个语言中学习到的方向向量可以成功地迁移到其他语言,并且通过组合多个语言的方向向量,可以进一步提升目标语言的比喻生成效果。例如,使用其他语言的方向向量可以匹配甚至超过目标语言自身的原生方向向量。

🎯 应用场景

该研究成果可应用于多语言内容生成、机器翻译和跨文化交流等领域。通过利用不同语言的知识,可以提升机器翻译中比喻表达的准确性和流畅性,增强跨文化交流的理解和表达能力。未来,该技术有望应用于更广泛的自然语言处理任务,例如情感分析、文本摘要和对话生成。

📄 摘要(原文)

Multilingual large language models can generate figurative language, but whether the internal signals driving this behavior are language-specific or reusable across languages is unclear. Using activation steering as a probe, we estimate a direction for a figurative category from figurative--literal activation differences in one language and apply it during generation. Across five figurative categories, six languages, and four multilingual LLMs, these directions steer reliably within their own language, most robustly for metaphor and simile. More importantly, they transfer across languages: a direction learned in one increases the target behavior when applied to another, with German among the most receptive targets. Going further, directions assembled from other languages can match or even surpass a target language's own native direction, while removing this shared component weakens native steering. Together, these results provide direct evidence of a reusable but target-dependent cross-lingual signal for figurative generation.