Is External Information Useful for Stance Detection with LLMs?

作者: Quang Minh Nguyen, Taegyoon Kim

分类: cs.CL

发布日期: 2025-07-02

备注: ACL Findings 2025

🔗 代码/项目: GITHUB

💡 一句话要点

研究表明：外部信息通常会降低LLM在立场检测任务中的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 立场检测 大型语言模型 外部信息 信息偏差 思维链提示

📋 核心要点

现有立场检测方法依赖外部信息提升性能，但其对大型语言模型（LLM）的影响尚不明确，存在研究空白。
该研究系统评估了维基百科和网络搜索等外部信息对LLM立场检测的影响，揭示了与先前研究相反的结论。
实验结果表明，外部信息通常会降低LLM的立场检测性能，宏F1分数显著下降，并分析了原因。

📝 摘要（中文）

在立场检测任务中，文本被分类为对目标有利、反对或中立。先前研究表明，使用外部信息（例如维基百科的摘录）可以提高立场检测性能。然而，尽管大型语言模型（LLM）已广泛应用于许多推理任务，但此类信息是否能使LLM受益仍然是一个未解决的问题。在本研究中，我们对维基百科和网络搜索外部信息如何影响八个LLM在三个数据集（包含12个目标）上的立场检测进行了系统评估。令人惊讶的是，我们发现此类信息在大多数情况下会降低性能，宏F1分数最多下降27.9%。我们通过实验解释了这一点，实验表明LLM倾向于将其预测与所提供信息的立场和情感对齐，而不是与给定文本的真实立场对齐。我们还发现，思维链提示持续存在性能下降，而微调可以缓解但不能完全消除它。我们的发现与先前关于基于BERT的系统的文献（表明外部信息可以提高性能）相反，突出了基于LLM的立场分类器中信息偏差的风险。代码可在https://github.com/ngqm/acl2025-stance-detection获得。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在立场检测任务中，利用外部信息（如维基百科和网络搜索结果）是否能够提升性能的问题。现有研究表明，对于基于BERT的模型，外部信息是有益的。然而，LLM的推理方式与BERT不同，直接应用外部信息可能引入偏差，导致性能下降。因此，该研究旨在验证外部信息对LLM立场检测的实际影响，并分析其原因。

核心思路：论文的核心思路是通过实验对比LLM在有无外部信息情况下的立场检测性能，从而判断外部信息是否有效。同时，分析LLM在引入外部信息后，预测结果与外部信息本身立场的相关性，从而解释性能下降的原因。研究还探索了思维链（Chain-of-Thought）提示和微调等方法，以缓解外部信息带来的负面影响。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择多个LLM模型和立场检测数据集；2) 构建包含外部信息的输入提示，例如将维基百科摘要或网络搜索结果添加到原始文本中；3) 使用LLM进行立场预测，并评估其性能（宏F1分数）；4) 分析LLM预测结果与外部信息立场的相关性；5) 尝试使用思维链提示和微调来改善性能。

关键创新：该研究最重要的技术创新点在于，它挑战了先前研究中关于外部信息能够提升立场检测性能的结论，并揭示了外部信息可能对LLM产生负面影响。该研究通过实验证明，LLM倾向于将预测结果与外部信息的立场对齐，从而导致性能下降。这一发现对于LLM在立场检测任务中的应用具有重要的指导意义。

关键设计：在实验设计方面，该研究考虑了以下关键因素：1) 选择了多个具有代表性的LLM模型，以保证结论的普适性；2) 使用了多个立场检测数据集，以评估模型在不同场景下的性能；3) 采用了宏F1分数作为评估指标，以综合考虑模型在不同类别上的表现；4) 通过分析LLM预测结果与外部信息立场的相关性，深入了解了外部信息对模型的影响；5) 尝试了思维链提示和微调等方法，以探索缓解外部信息负面影响的策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在大多数情况下，外部信息会导致LLM的立场检测性能下降，宏F1分数最多下降27.9%。研究发现，LLM倾向于将其预测与外部信息的立场和情感对齐，而非原始文本的立场。思维链提示无法有效缓解性能下降，而微调可以部分缓解，但不能完全消除外部信息带来的负面影响。这些发现与先前基于BERT的研究结果相反。

🎯 应用场景

该研究成果可应用于舆情分析、虚假信息检测、政治倾向性分析等领域。通过了解外部信息对LLM立场检测的影响，可以更好地设计基于LLM的立场分类器，提高其准确性和可靠性，从而为相关应用提供更有效的支持。未来的研究可以探索更有效的利用外部信息的方法，例如通过信息过滤或对抗训练来减少偏差。

📄 摘要（原文）

In the stance detection task, a text is classified as either favorable, opposing, or neutral towards a target. Prior work suggests that the use of external information, e.g., excerpts from Wikipedia, improves stance detection performance. However, whether or not such information can benefit large language models (LLMs) remains an unanswered question, despite their wide adoption in many reasoning tasks. In this study, we conduct a systematic evaluation on how Wikipedia and web search external information can affect stance detection across eight LLMs and in three datasets with 12 targets. Surprisingly, we find that such information degrades performance in most cases, with macro F1 scores dropping by up to 27.9\%. We explain this through experiments showing LLMs' tendency to align their predictions with the stance and sentiment of the provided information rather than the ground truth stance of the given text. We also find that performance degradation persists with chain-of-thought prompting, while fine-tuning mitigates but does not fully eliminate it. Our findings, in contrast to previous literature on BERT-based systems which suggests that external information enhances performance, highlight the risks of information biases in LLM-based stance classifiers. Code is available at https://github.com/ngqm/acl2025-stance-detection.

Is External Information Useful for Stance Detection with LLMs?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理