TEMPER: Testing Emotional Perturbation in Quantitative Reasoning

作者: Atahan Dokme, Benjamin Reichman, Larry Heck

分类: cs.CL, cs.AI

发布日期: 2026-04-09

备注: 25 pages, 8 figures. Preprint. Under review

💡 一句话要点

TEMPER：探究情感扰动对定量推理的影响及中和方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感分析 定量推理 语言模型 鲁棒性 情感翻译

📋 核心要点

现有语言模型在情感中立的定量推理任务上训练，忽略了现实世界查询中常见的情感因素。
论文提出一种受控情感翻译框架，生成情感变体问题，用于评估情感对定量推理的影响。
实验表明情感框架会显著降低模型准确率，而中和情感可以有效恢复性能，验证了情感干扰的存在。

📝 摘要（中文）

大型语言模型通常在干净、情感中立的语言编写的定量推理任务上进行训练和评估。然而，现实世界的查询常常包含沮丧、紧急或热情等情感。本文研究了在所有数值内容保持不变的情况下，仅情感框架是否会降低推理能力。为此，开发了一种受控的情感翻译框架，将问题改写为情感变体，同时保留所有数量和关系。利用该框架，构建了 Temper-5400（5400个经过语义验证的情感-中立对），涵盖 GSM8K、MultiArith 和 ARC-Challenge 数据集，并在 18 个模型（1B 到前沿规模）上进行了评估。结果表明：首先，即使所有数值内容都得到保留，情感框架也会使准确率降低 2-10 个百分点。其次，中和情感变体可以恢复大部分损失的性能，表明性能下降与情感风格有关，而非内容损坏，并且中和可以作为一种轻量级的推理时缓解方法。非情感释义不会导致这种性能下降，表明问题在于情感内容而非表面层面的变化。除了情感之外，该基准构建过程还提供了一个用于受控风格翻译和鲁棒性评估的通用框架。

🔬 方法详解

问题定义：现有的大型语言模型在处理定量推理任务时，通常是在情感中立的数据集上进行训练和评估。然而，现实世界中的问题往往带有情感色彩，例如沮丧、兴奋等。论文旨在研究这些情感因素是否会对模型的推理能力产生负面影响，即使问题的数值内容和逻辑关系保持不变。现有方法忽略了情感因素，可能导致模型在实际应用中表现不佳。

核心思路：论文的核心思路是构建一个受控的情感翻译框架，该框架能够将情感中立的问题改写成带有特定情感色彩的变体，同时保证问题的数值内容和逻辑关系不变。通过比较模型在情感中立问题和情感变体问题上的表现，可以量化情感因素对推理能力的影响。此外，论文还探索了通过情感中和来缓解情感干扰的方法。

技术框架：该研究的技术框架主要包含以下几个步骤：1) 构建受控情感翻译框架，用于生成情感变体问题；2) 创建 Temper-5400 数据集，包含情感中立问题及其情感变体；3) 在多个大型语言模型上评估情感对推理性能的影响；4) 探索情感中和方法，并评估其效果。该框架的核心是情感翻译模块，它利用自然语言处理技术，在保持问题语义不变的前提下，注入不同的情感色彩。

关键创新：论文的关键创新在于提出了一个受控的情感翻译框架，能够系统地研究情感因素对定量推理的影响。该框架允许研究人员在严格控制变量的情况下，量化不同情感对模型性能的影响。此外，论文还提出了情感中和的概念，并验证了其作为一种轻量级推理时缓解方法的有效性。

关键设计：情感翻译框架的设计需要保证翻译后的问题在语义上与原始问题等价，仅在情感表达上存在差异。为此，论文可能采用了基于规则或基于模型的翻译方法，并辅以人工验证，以确保翻译质量。情感中和方法可能包括使用情感词典或情感分类器来识别和消除问题中的情感词汇或表达。具体的参数设置、损失函数和网络结构等技术细节在论文中可能有所描述，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

实验结果表明，情感框架会导致模型准确率下降 2-10 个百分点，即使所有数值内容都保持不变。更重要的是，通过中和情感变体，可以恢复大部分损失的性能，证明了情感干扰的存在以及情感中和的有效性。非情感释义不会导致性能下降，进一步验证了情感内容而非表面变化是导致性能下降的原因。

🎯 应用场景

该研究成果可应用于提升语言模型在实际场景中的鲁棒性和可靠性。通过理解和缓解情感因素对推理的影响，可以开发出更适应真实世界复杂环境的智能系统，例如情感客服、智能助手等。此外，该研究提出的情感翻译框架也可用于构建更具挑战性的评测基准，推动语言模型研究的进一步发展。

📄 摘要（原文）

Large language models are trained and evaluated on quantitative reasoning tasks written in clean, emotionally neutral language. However, real-world queries are often wrapped in frustration, urgency or enthusiasm. Does emotional framing alone degrade reasoning when all numerical content is preserved? To investigate this, a controlled emotion translation framework is developed that rewrites problems into emotional variants while preserving all quantities and relationships. Using this framework, Temper-5400 (5,400 semantically verified emotion--neutral pairs) is constructed across GSM8K, MultiArith, and ARC-Challenge, and evaluated on eighteen models (1B to frontier scale). Two core results emerge: First, emotional framing reduces accuracy by 2-10 percentage points even though all numerical content is preserved. Second, neutralizing emotional variants recovers most of the lost performance, showing both that the degradation is tied to emotional style rather than content corruption and that neutralization can serve as a lightweight inference-time mitigation. Non-emotional paraphrases cause no such degradation, implicating emotional content rather than surface-level changes. Beyond emotion specifically, the benchmark construction procedure provides a general framework for controlled stylistic translation and robustness evaluation.

TEMPER: Testing Emotional Perturbation in Quantitative Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理