J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain

作者: Yiran Hu, Huanghai Liu, Qingjing Chen, Ning Zheng, Chong Wang, Yun Liu, Charles L. A. Clarke, Weixing Shen

分类: cs.CL

发布日期: 2025-03-24

备注: 10 pages, 5 figures

💡 一句话要点

提出J&H框架，评估大语言模型在法律领域知识注入攻击下的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 法律领域 知识注入攻击 鲁棒性评估 法律推理

📋 核心要点

现有大语言模型在法律领域的应用面临挑战，它们可能依赖表面模式而非深层法律逻辑进行推理。
提出J&H框架，通过知识注入攻击评估LLM在法律推理任务中的鲁棒性，模拟现实中可能出现的错误。
实验表明，现有LLM对知识注入攻击的鲁棒性不足，论文还提出了增强LLM鲁棒性的方法。

📝 摘要（中文）

随着大语言模型（LLMs）规模和能力的增长，它们在法律等知识密集型领域的应用受到了广泛关注。然而，这些LLMs是否基于领域知识进行推理仍然存疑。如果LLMs仅仅基于特定的词语或模式进行判断，而不是基于语言的底层逻辑，那么“LLM-作为-法官”的范式在实际应用中会带来巨大的风险。为了解决这个问题，我们提出了一种法律知识注入攻击的方法来进行鲁棒性测试，从而推断LLMs是否已经学习了法律知识和推理逻辑。本文提出了J&H：一个用于检测LLMs在法律领域知识注入攻击下鲁棒性的评估框架。该框架旨在探索LLMs在完成法律任务时是否执行演绎推理。为了进一步实现这一目标，我们攻击了这些任务背后的推理逻辑的每个部分（大前提、小前提和结论生成）。我们收集了法律专家在现实世界中司法判决中可能犯的错误，例如拼写错误、法律同义词、不准确的外部法律法规检索。然而，在真实的法律实践中，法律专家倾向于忽略这些错误，并基于逻辑做出判断。然而，当面对这些错误时，LLMs很容易被拼写错误误导，并且可能不会在他们的判断中使用逻辑。我们对现有的通用和特定领域的LLMs进行了知识注入攻击。目前的LLMs对于我们实验中使用的攻击并不具有鲁棒性。此外，我们提出并比较了几种增强LLMs知识鲁棒性的方法。

🔬 方法详解

问题定义：论文旨在解决大语言模型在法律领域应用中，过度依赖表面文本特征而非深层法律知识进行推理的问题。现有方法缺乏对LLM法律推理能力鲁棒性的有效评估，容易受到知识注入攻击的影响，导致错误的法律判断。

核心思路：论文的核心思路是通过模拟现实世界中法律专家可能犯的错误（如拼写错误、法律同义词、不准确的法规检索）来构建知识注入攻击，以此评估LLM在受到干扰情况下的法律推理能力。如果LLM能够忽略这些错误，仍然基于正确的法律逻辑进行推理，则表明其具有较强的鲁棒性。

技术框架：J&H框架主要包含以下几个阶段：1) 法律推理任务构建：选择或构建需要法律推理的任务，例如案例分析、法律条文适用等。2) 知识注入攻击：针对推理过程中的大前提、小前提和结论生成等环节，注入各种类型的错误。3) LLM推理：使用待评估的LLM对受到攻击的任务进行推理，生成判断结果。4) 鲁棒性评估：比较LLM在受到攻击前后判断结果的差异，以及与正确答案的偏差，从而评估其鲁棒性。

关键创新：论文的关键创新在于提出了针对法律领域知识注入攻击的评估方法。与传统的对抗攻击不同，该方法模拟了现实世界中法律专家可能遇到的错误，更贴近实际应用场景。此外，该框架可以针对推理过程的不同环节进行攻击，从而更全面地评估LLM的推理能力。

关键设计：论文设计了多种类型的知识注入攻击，包括：1) 拼写错误：在法律条文或案例描述中引入拼写错误。2) 法律同义词替换：使用法律同义词替换原文中的关键词。3) 不准确的法规检索：提供错误的或不相关的法律法规信息。论文还比较了几种增强LLM知识鲁棒性的方法，但具体的技术细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的通用和领域特定的大语言模型在面对知识注入攻击时，鲁棒性较差，容易受到拼写错误、法律同义词替换等干扰，导致错误的法律判断。具体的性能数据和提升幅度未知，但论文验证了现有LLM在法律领域应用的潜在风险，并为后续研究提供了方向。

🎯 应用场景

该研究成果可应用于评估和提升大语言模型在法律领域的可靠性和安全性。通过J&H框架，可以发现LLM在法律推理方面的薄弱环节，并针对性地进行改进，从而降低LLM在实际法律应用中产生错误判断的风险。此外，该研究还可以促进法律人工智能领域的发展，推动LLM在法律咨询、案件分析等方面的应用。

📄 摘要（原文）

As the scale and capabilities of Large Language Models (LLMs) increase, their applications in knowledge-intensive fields such as legal domain have garnered widespread attention. However, it remains doubtful whether these LLMs make judgments based on domain knowledge for reasoning. If LLMs base their judgments solely on specific words or patterns, rather than on the underlying logic of the language, the ''LLM-as-judges'' paradigm poses substantial risks in the real-world applications. To address this question, we propose a method of legal knowledge injection attacks for robustness testing, thereby inferring whether LLMs have learned legal knowledge and reasoning logic. In this paper, we propose J&H: an evaluation framework for detecting the robustness of LLMs under knowledge injection attacks in the legal domain. The aim of the framework is to explore whether LLMs perform deductive reasoning when accomplishing legal tasks. To further this aim, we have attacked each part of the reasoning logic underlying these tasks (major premise, minor premise, and conclusion generation). We have collected mistakes that legal experts might make in judicial decisions in the real world, such as typos, legal synonyms, inaccurate external legal statutes retrieval. However, in real legal practice, legal experts tend to overlook these mistakes and make judgments based on logic. However, when faced with these errors, LLMs are likely to be misled by typographical errors and may not utilize logic in their judgments. We conducted knowledge injection attacks on existing general and domain-specific LLMs. Current LLMs are not robust against the attacks employed in our experiments. In addition we propose and compare several methods to enhance the knowledge robustness of LLMs.

J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理