AIMS.au: A Dataset for the Analysis of Modern Slavery Countermeasures in Corporate Statements
作者: Adriana Eufrosina Bora, Pierre-Luc St-Charles, Mirko Bronzi, Arsène Fansi Tchango, Bruno Rousseau, Kerrie Mengersen
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-02-10
备注: Camera ready. ICLR 2025
💡 一句话要点
提出AIMS.au数据集,用于分析企业声明中现代奴隶制应对措施
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 现代奴隶制 公司声明分析 自然语言处理 数据集构建 文本分类 机器学习 合规监管
📋 核心要点
- 现有方法难以有效分析大量企业声明,识别具体的现代奴隶制应对措施。
- 构建AIMS.au数据集,包含5731份澳大利亚现代奴隶制声明,并在句子级别进行标注。
- 提出机器学习方法检测相关句子,并对现代语言模型进行零样本和监督学习基准测试。
📝 摘要(中文)
尽管十多年来立法机构一直努力解决大型企业供应链中的现代奴隶制问题,但政府监督的有效性仍然受到每年审查数千份声明的挑战的阻碍。虽然大型语言模型(LLM)可以被认为是自动分析和总结文档的成熟解决方案,但识别公司采取的具体现代奴隶制应对措施并将这些措施与模糊声明区分开来仍然是一项具有挑战性的任务。为了帮助评估和微调LLM以评估企业声明,我们引入了一个数据集,该数据集由来自澳大利亚现代奴隶制登记处的5,731份现代奴隶制声明组成,并在句子级别进行了注释。本文详细介绍了数据集的构建步骤,包括注释规范的精心设计、声明的选择和预处理以及高质量注释子集的创建,以实现有效的模型评估。为了证明我们数据集的效用,我们提出了一种机器学习方法,用于检测与澳大利亚现代奴隶制法案规定的强制性报告要求相关的句子。然后,我们遵循这种方法来对零样本和监督学习设置下的现代语言模型进行基准测试。
🔬 方法详解
问题定义:论文旨在解决自动分析公司声明中现代奴隶制应对措施的难题。现有方法难以区分具体的应对措施和模糊的声明,导致政府监管效率低下。缺乏高质量的标注数据集是主要瓶颈。
核心思路:论文的核心思路是构建一个高质量、大规模的标注数据集AIMS.au,并利用该数据集对现有的语言模型进行评估和微调。通过提供细粒度的句子级别标注,可以更准确地识别公司声明中与现代奴隶制相关的具体信息。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:从澳大利亚现代奴隶制登记处收集5731份公司声明。2) 数据预处理:对收集到的声明进行清洗和格式化。3) 注释规范设计:设计详细的注释规范,确保标注的一致性和准确性。4) 数据标注:由专业人员对句子进行标注,区分与现代奴隶制应对措施相关的句子和无关句子。5) 模型评估:使用AIMS.au数据集对现有的语言模型进行零样本和监督学习基准测试。
关键创新:该论文的关键创新在于构建了AIMS.au数据集,这是一个专门用于分析公司声明中现代奴隶制应对措施的高质量标注数据集。该数据集的规模和细粒度标注使其成为评估和改进相关自然语言处理模型的宝贵资源。
关键设计:注释规范的设计是关键。论文详细描述了如何定义与现代奴隶制相关的句子,以及如何区分不同类型的应对措施。此外,论文还采用了机器学习方法来检测相关句子,并对不同的语言模型进行了基准测试,为未来的研究提供了参考。
🖼️ 关键图片
📊 实验亮点
论文构建的AIMS.au数据集包含5731份现代奴隶制声明,并在句子级别进行了标注。通过对现代语言模型进行基准测试,验证了该数据集的有效性。实验结果表明,经过监督学习微调的模型在检测相关句子方面取得了显著的性能提升,为后续研究提供了坚实的基础。
🎯 应用场景
该研究成果可应用于政府监管、企业合规和社会责任投资等领域。通过自动分析公司声明,可以更有效地监督企业在打击现代奴隶制方面的努力,提高供应链透明度,并为投资者提供更全面的ESG信息。未来,该数据集可用于开发更智能的AI系统,以识别和预防现代奴隶制。
📄 摘要(原文)
Despite over a decade of legislative efforts to address modern slavery in the supply chains of large corporations, the effectiveness of government oversight remains hampered by the challenge of scrutinizing thousands of statements annually. While Large Language Models (LLMs) can be considered a well established solution for the automatic analysis and summarization of documents, recognizing concrete modern slavery countermeasures taken by companies and differentiating those from vague claims remains a challenging task. To help evaluate and fine-tune LLMs for the assessment of corporate statements, we introduce a dataset composed of 5,731 modern slavery statements taken from the Australian Modern Slavery Register and annotated at the sentence level. This paper details the construction steps for the dataset that include the careful design of annotation specifications, the selection and preprocessing of statements, and the creation of high-quality annotation subsets for effective model evaluations. To demonstrate our dataset's utility, we propose a machine learning methodology for the detection of sentences relevant to mandatory reporting requirements set by the Australian Modern Slavery Act. We then follow this methodology to benchmark modern language models under zero-shot and supervised learning settings.