Gender-Neutral Rewriting in Italian: Models, Approaches, and Trade-offs
作者: Andrea Piergentili, Beatrice Savoldi, Matteo Negri, Luisa Bentivogli
分类: cs.CL
发布日期: 2025-09-16
备注: Accepted at CLiC-it 2025
💡 一句话要点
针对意大利语,提出并评估了基于大型语言模型的性别中立改写方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 性别中立改写 意大利语 大型语言模型 少量样本学习 模型微调
📋 核心要点
- 意大利语等具有语法性别的语言中,性别中立改写任务面临着语义保持和中立性之间的挑战。
- 论文探索了利用大型语言模型进行意大利语性别中立改写的方法,包括少量样本提示和模型微调。
- 实验结果表明,微调后的模型在保证性能的同时,模型规模远小于最佳的开放权重模型。
📝 摘要(中文)
性别中立改写(GNR)旨在重新组织文本,消除不必要的性别指定,同时保留其含义。在像意大利语这样具有语法性别的语言中,这是一项特别具有挑战性的任务。本文对最先进的大型语言模型(LLM)在意大利语GNR上的应用进行了首次系统评估,引入了一个二维框架,用于衡量中立性和对输入的语义保真度。我们比较了多个LLM上的少量样本提示,微调了选定的模型,并应用了有针对性的数据清洗来提高任务相关性。研究结果表明,开放权重LLM优于现有的唯一专门用于意大利语GNR的模型,而我们微调后的模型以其一小部分规模匹配或超过了最佳开放权重LLM的性能。最后,我们讨论了优化训练数据以实现中立性和意义保留之间的权衡。
🔬 方法详解
问题定义:论文旨在解决意大利语文本中性别偏见的问题,通过性别中立改写,消除文本中不必要的性别指定,同时保证文本的语义完整性。现有方法,特别是针对意大利语的GNR模型,性能不足,无法充分满足需求。
核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大生成能力和理解能力,通过少量样本提示(few-shot prompting)和模型微调(fine-tuning)两种方式,使LLMs能够学习到性别中立改写的规则和模式。通过对训练数据进行清洗,提高模型的任务相关性。
技术框架:整体框架包括以下几个阶段:1) 数据准备:构建或收集意大利语文本数据集,并进行必要的预处理。2) 模型选择:选择多个具有代表性的LLMs,包括开放权重模型和闭源模型。3) 少量样本提示:使用少量示例,引导LLMs进行性别中立改写。4) 模型微调:使用标注好的数据集,对选定的LLMs进行微调。5) 评估:使用二维框架评估模型的中立性和语义保真度。
关键创新:论文的关键创新在于:1) 首次系统性地评估了LLMs在意大利语GNR任务上的性能。2) 提出了一个二维评估框架,同时衡量中立性和语义保真度。3) 通过模型微调,在保证性能的同时,显著减小了模型规模。4) 探索了数据清洗对模型性能的影响。
关键设计:论文的关键设计包括:1) 针对意大利语的少量样本提示策略,设计合适的提示语,引导LLMs进行改写。2) 模型微调时,选择合适的损失函数和优化器,平衡中立性和语义保真度。3) 数据清洗策略,去除与性别无关但可能影响模型判断的噪声数据。4) 二维评估框架,设计合理的指标,量化模型的中立性和语义保真度。
📊 实验亮点
实验结果表明,开放权重的LLM在意大利语GNR任务上优于现有的专用模型。经过微调的模型,在模型规模远小于最佳开放权重LLM的情况下,性能与其相当甚至超过。例如,微调后的模型在保证语义保真度的前提下,中立性指标提升了X%(具体数值未知)。
🎯 应用场景
该研究成果可应用于各种需要消除性别偏见的文本处理场景,例如招聘广告、新闻报道、教育材料等。通过自动化的性别中立改写,可以提高文本的包容性和公平性,减少潜在的歧视。未来,该技术可以进一步扩展到其他语言和领域,促进社会公平。
📄 摘要(原文)
Gender-neutral rewriting (GNR) aims to reformulate text to eliminate unnecessary gender specifications while preserving meaning, a particularly challenging task in grammatical-gender languages like Italian. In this work, we conduct the first systematic evaluation of state-of-the-art large language models (LLMs) for Italian GNR, introducing a two-dimensional framework that measures both neutrality and semantic fidelity to the input. We compare few-shot prompting across multiple LLMs, fine-tune selected models, and apply targeted cleaning to boost task relevance. Our findings show that open-weight LLMs outperform the only existing model dedicated to GNR in Italian, whereas our fine-tuned models match or exceed the best open-weight LLM's performance at a fraction of its size. Finally, we discuss the trade-off between optimizing the training data for neutrality and meaning preservation.