CLaC at DISRPT 2025: Hierarchical Adapters for Cross-Framework Multi-lingual Discourse Relation Classification

📄 arXiv: 2509.16903v1 📥 PDF

作者: Nawar Turk, Daniele Comitogianni, Leila Kosseim

分类: cs.CL

发布日期: 2025-09-21


💡 一句话要点

提出HiDAC模型,用于解决跨框架多语篇章关系分类任务的挑战。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 篇章关系分类 多语言处理 跨框架学习 适配器 对比学习

📋 核心要点

  1. 跨框架多语篇章关系分类任务面临多语言和形式主义差异的挑战,现有方法难以有效应对。
  2. HiDAC模型采用分层双适配器和对比学习,旨在提升模型在复杂场景下的泛化能力和参数效率。
  3. 实验表明,HiDAC模型在篇章关系分类任务上取得了最高的总体准确率,并具有更高的参数效率。

📝 摘要(中文)

本文介绍了我们在DISRPT 2025共享任务Task 3(篇章关系分类)中的提交。Task 3提出了一个统一的包含17个篇章关系标签的集合,涵盖16种语言和六种篇章框架的39个语料库,带来了显著的多语言和跨形式主义的挑战。我们首先通过微调基于多语言BERT的模型(mBERT、XLM-RoBERTa-Base和XLM-RoBERTa-Large),采用两种参数排序策略和渐进式解冻比例,为该任务建立强大的基线。然后,我们在零样本和少样本设置下评估了基于提示的大型语言模型(即Claude Opus 4.0),以了解LLM如何响应新提出的统一标签。最后,我们介绍了一种分层双适配器对比学习模型HiDAC。结果表明,虽然更大的Transformer模型实现了更高的准确率,但改进幅度不大,并且解冻75%的编码器层产生的性能与完全微调相当,同时训练的参数要少得多。基于提示的模型明显落后于微调的Transformer模型,而HiDAC实现了最高的总体准确率(67.5%),同时比完全微调更具参数效率。

🔬 方法详解

问题定义:论文旨在解决跨框架、多语言的篇章关系分类问题。现有方法,如直接微调大型预训练语言模型,虽然可以取得一定效果,但忽略了不同框架和语言之间的差异,且参数量大,训练成本高。此外,基于prompt的方法在处理此类复杂任务时表现不佳。

核心思路:论文的核心思路是利用分层适配器来学习不同框架和语言的特定表示,并通过对比学习来增强模型对篇章关系判别的能力。通过适配器,模型可以在保留预训练知识的同时,针对特定任务进行优化,从而提高性能和参数效率。

技术框架:HiDAC模型包含以下主要模块:1) 预训练语言模型(如XLM-RoBERTa),用于提取文本的初始表示;2) 分层适配器,包含多个适配器层,用于学习不同框架和语言的特定表示;3) 对比学习模块,通过对比正负样本,增强模型对篇章关系判别的能力;4) 分类器,用于预测篇章关系标签。

关键创新:HiDAC的关键创新在于:1) 提出了分层适配器结构,可以更好地捕捉不同框架和语言的细粒度差异;2) 引入了对比学习,可以增强模型对篇章关系判别的能力,提高泛化性能;3) 实现了比完全微调更高的准确率,同时保持了更高的参数效率。

关键设计:HiDAC的关键设计包括:1) 适配器层的数量和维度;2) 对比学习的损失函数,例如InfoNCE loss;3) 正负样本的选择策略,例如使用hard negative samples;4) 分类器的结构,例如使用线性层或多层感知机。

🖼️ 关键图片

fig_0

📊 实验亮点

HiDAC模型在DISRPT 2025 Task 3中取得了最高的总体准确率67.5%,超过了直接微调的Transformer模型和基于prompt的模型。同时,HiDAC模型通过使用适配器,实现了比完全微调更高的参数效率,降低了训练成本。实验还表明,解冻75%的编码器层可以达到与完全微调相当的性能。

🎯 应用场景

该研究成果可应用于多语言信息抽取、跨语言文本理解、自动文摘等领域。通过提升篇章关系分类的准确性,可以帮助机器更好地理解文本的深层语义,从而提高下游任务的性能。未来,该方法有望应用于更广泛的自然语言处理任务中。

📄 摘要(原文)

We present our submission to Task 3 (Discourse Relation Classification) of the DISRPT 2025 shared task. Task 3 introduces a unified set of 17 discourse relation labels across 39 corpora in 16 languages and six discourse frameworks, posing significant multilingual and cross-formalism challenges. We first benchmark the task by fine-tuning multilingual BERT-based models (mBERT, XLM-RoBERTa-Base, and XLM-RoBERTa-Large) with two argument-ordering strategies and progressive unfreezing ratios to establish strong baselines. We then evaluate prompt-based large language models (namely Claude Opus 4.0) in zero-shot and few-shot settings to understand how LLMs respond to the newly proposed unified labels. Finally, we introduce HiDAC, a Hierarchical Dual-Adapter Contrastive learning model. Results show that while larger transformer models achieve higher accuracy, the improvements are modest, and that unfreezing the top 75% of encoder layers yields performance comparable to full fine-tuning while training far fewer parameters. Prompt-based models lag significantly behind fine-tuned transformers, and HiDAC achieves the highest overall accuracy (67.5%) while remaining more parameter-efficient than full fine-tuning.