Gender-Neutral Rewriting in Italian: Models, Approaches, and Trade-offs

作者: Andrea Piergentili, Beatrice Savoldi, Matteo Negri, Luisa Bentivogli

分类: cs.CL

发布日期: 2025-09-16

备注: Accepted at CLiC-it 2025

💡 一句话要点

针对意大利语，提出并评估了基于大型语言模型的性别中立改写方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 性别中立改写 意大利语 大型语言模型 少量样本学习 模型微调

📋 核心要点

意大利语等具有语法性别的语言中，性别中立改写任务面临着语义保持和中立性之间的挑战。
论文探索了利用大型语言模型进行意大利语性别中立改写的方法，包括少量样本提示和模型微调。
实验结果表明，微调后的模型在保证性能的同时，模型规模远小于最佳的开放权重模型。

📝 摘要（中文）

性别中立改写（GNR）旨在重新组织文本，消除不必要的性别指定，同时保留其含义。在像意大利语这样具有语法性别的语言中，这是一项特别具有挑战性的任务。本文对最先进的大型语言模型（LLM）在意大利语GNR上的应用进行了首次系统评估，引入了一个二维框架，用于衡量中立性和对输入的语义保真度。我们比较了多个LLM上的少量样本提示，微调了选定的模型，并应用了有针对性的数据清洗来提高任务相关性。研究结果表明，开放权重LLM优于现有的唯一专门用于意大利语GNR的模型，而我们微调后的模型以其一小部分规模匹配或超过了最佳开放权重LLM的性能。最后，我们讨论了优化训练数据以实现中立性和意义保留之间的权衡。

🔬 方法详解

问题定义：论文旨在解决意大利语文本中性别偏见的问题，通过性别中立改写，消除文本中不必要的性别指定，同时保证文本的语义完整性。现有方法，特别是针对意大利语的GNR模型，性能不足，无法充分满足需求。

核心思路：论文的核心思路是利用大型语言模型（LLMs）的强大生成能力和理解能力，通过少量样本提示（few-shot prompting）和模型微调（fine-tuning）两种方式，使LLMs能够学习到性别中立改写的规则和模式。通过对训练数据进行清洗，提高模型的任务相关性。

技术框架：整体框架包括以下几个阶段：1) 数据准备：构建或收集意大利语文本数据集，并进行必要的预处理。2) 模型选择：选择多个具有代表性的LLMs，包括开放权重模型和闭源模型。3) 少量样本提示：使用少量示例，引导LLMs进行性别中立改写。4) 模型微调：使用标注好的数据集，对选定的LLMs进行微调。5) 评估：使用二维框架评估模型的中立性和语义保真度。

关键创新：论文的关键创新在于：1) 首次系统性地评估了LLMs在意大利语GNR任务上的性能。2) 提出了一个二维评估框架，同时衡量中立性和语义保真度。3) 通过模型微调，在保证性能的同时，显著减小了模型规模。4) 探索了数据清洗对模型性能的影响。

关键设计：论文的关键设计包括：1) 针对意大利语的少量样本提示策略，设计合适的提示语，引导LLMs进行改写。2) 模型微调时，选择合适的损失函数和优化器，平衡中立性和语义保真度。3) 数据清洗策略，去除与性别无关但可能影响模型判断的噪声数据。4) 二维评估框架，设计合理的指标，量化模型的中立性和语义保真度。

📊 实验亮点

实验结果表明，开放权重的LLM在意大利语GNR任务上优于现有的专用模型。经过微调的模型，在模型规模远小于最佳开放权重LLM的情况下，性能与其相当甚至超过。例如，微调后的模型在保证语义保真度的前提下，中立性指标提升了X%（具体数值未知）。

🎯 应用场景

该研究成果可应用于各种需要消除性别偏见的文本处理场景，例如招聘广告、新闻报道、教育材料等。通过自动化的性别中立改写，可以提高文本的包容性和公平性，减少潜在的歧视。未来，该技术可以进一步扩展到其他语言和领域，促进社会公平。

📄 摘要（原文）

Gender-neutral rewriting (GNR) aims to reformulate text to eliminate unnecessary gender specifications while preserving meaning, a particularly challenging task in grammatical-gender languages like Italian. In this work, we conduct the first systematic evaluation of state-of-the-art large language models (LLMs) for Italian GNR, introducing a two-dimensional framework that measures both neutrality and semantic fidelity to the input. We compare few-shot prompting across multiple LLMs, fine-tune selected models, and apply targeted cleaning to boost task relevance. Our findings show that open-weight LLMs outperform the only existing model dedicated to GNR in Italian, whereas our fine-tuned models match or exceed the best open-weight LLM's performance at a fraction of its size. Finally, we discuss the trade-off between optimizing the training data for neutrality and meaning preservation.

Gender-Neutral Rewriting in Italian: Models, Approaches, and Trade-offs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册