LegalWebAgent: Empowering Access to Justice via LLM-Based Web Agents

📄 arXiv: 2512.04105v1 📥 PDF

作者: Jinzhe Tan, Karim Benyekhlef

分类: cs.CY, cs.AI, cs.HC

发布日期: 2025-11-28


💡 一句话要点

LegalWebAgent:利用LLM驱动的Web Agent赋能司法服务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web Agent 大型语言模型 多模态学习 法律服务 司法公正

📋 核心要点

  1. 现有法律服务网站信息繁杂,用户难以有效获取和利用,阻碍了司法公正的实现。
  2. LegalWebAgent利用多模态LLM驱动的Web Agent,模拟用户行为,自主完成信息检索和操作。
  3. 实验表明,LegalWebAgent在模拟魁北克民法服务流程中取得了高达86.7%的成功率。

📝 摘要(中文)

在获取司法服务方面,全球公民仍然面临挑战。尽管互联网提供了丰富的法律信息和服务,但浏览复杂的网站、理解法律术语以及填写程序性表格仍然是获得司法公正的障碍。本文介绍了LegalWebAgent框架,该框架采用由多模态大型语言模型驱动的Web Agent来弥合普通公民在获取司法服务方面的差距。该框架结合了大型语言模型的自然语言理解能力和多模态感知能力,实现了从用户查询到具体行动的完整过程。它分三个阶段运行:Ask模块通过自然语言处理理解用户需求;Browse模块自主导航网页,与页面元素(包括表格和日历)交互,并从HTML结构和网页截图提取信息;Act模块为用户综合信息或执行直接操作,如填写表格和安排日程。为了评估其有效性,我们设计了一个基准测试,涵盖15个真实世界的任务,模拟与魁北克民法用户相关的典型法律服务流程,从问题识别到程序操作。评估结果表明,LegalWebAgent的峰值成功率达到86.7%,所有测试模型的平均成功率为84.4%,证明了其在复杂真实场景中的高度自主性。

🔬 方法详解

问题定义:当前,普通公民在寻求法律帮助时,面临着互联网上法律信息和服务难以获取和利用的难题。复杂的网站导航、专业的法律术语以及繁琐的表格填写都构成了障碍。现有方法缺乏一种能够理解用户需求并自主完成网页操作的智能代理。

核心思路:LegalWebAgent的核心思路是利用多模态大型语言模型(LLM)的强大能力,构建一个能够模拟人类用户行为的Web Agent。该Agent能够理解自然语言查询,自主浏览网页,提取信息,并执行诸如填写表格和安排日程等操作,从而简化用户获取法律服务的流程。

技术框架:LegalWebAgent框架包含三个主要模块:Ask模块、Browse模块和Act模块。Ask模块负责理解用户以自然语言提出的需求。Browse模块负责自主导航网页,与页面元素交互,并从HTML结构和网页截图提取信息。Act模块负责综合信息,并执行诸如填写表格和安排日程等操作。

关键创新:该框架的关键创新在于将多模态LLM与Web Agent相结合,使其能够理解复杂的网页结构和内容,并自主完成各种网页操作。与传统的基于规则或模板的Web Agent相比,LegalWebAgent具有更强的泛化能力和适应性。

关键设计:具体的技术细节包括:使用预训练的多模态LLM作为核心引擎;设计了专门的prompting策略,引导LLM进行网页浏览和信息提取;采用了强化学习等技术,优化Agent的决策过程;针对不同的法律服务任务,设计了相应的评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LegalWebAgent在模拟魁北克民法服务流程的15个真实世界任务中,取得了显著的成果。其峰值成功率达到86.7%,平均成功率为84.4%。这些结果表明,LegalWebAgent在复杂真实场景中具有高度的自主性和有效性,优于现有方法。

🎯 应用场景

LegalWebAgent可应用于各种法律服务领域,例如法律咨询、案件查询、文件准备等。它能够帮助普通公民更便捷地获取法律信息和资源,降低法律服务的门槛,促进司法公正。未来,该技术还可以扩展到其他领域,例如医疗健康、教育等,为用户提供更智能化的信息服务。

📄 摘要(原文)

Access to justice remains a global challenge, with many citizens still finding it difficult to seek help from the justice system when facing legal issues. Although the internet provides abundant legal information and services, navigating complex websites, understanding legal terminology, and filling out procedural forms continue to pose barriers to accessing justice. This paper introduces the LegalWebAgent framework that employs a web agent powered by multimodal large language models to bridge the gap in access to justice for ordinary citizens. The framework combines the natural language understanding capabilities of large language models with multimodal perception, enabling a complete process from user query to concrete action. It operates in three stages: the Ask Module understands user needs through natural language processing; the Browse Module autonomously navigates webpages, interacts with page elements (including forms and calendars), and extracts information from HTML structures and webpage screenshots; the Act Module synthesizes information for users or performs direct actions like form completion and schedule booking. To evaluate its effectiveness, we designed a benchmark test covering 15 real-world tasks, simulating typical legal service processes relevant to Québec civil law users, from problem identification to procedural operations. Evaluation results show LegalWebAgent achieved a peak success rate of 86.7%, with an average of 84.4% across all tested models, demonstrating high autonomy in complex real-world scenarios.