Right at My Level: A Unified Multilingual Framework for Proficiency-Aware Text Simplification
作者: Jinhong Jeong, Junghun Park, Youngjae Yu
分类: cs.CL
发布日期: 2026-04-07
备注: Accepted to ACL 2026
💡 一句话要点
提出Re-RIGHT框架,无需平行语料库即可实现多语言自适应文本简化。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本简化 强化学习 多语言 自适应学习 自然语言处理
📋 核心要点
- 现有文本简化方法依赖平行语料库或预标记数据,成本高昂且主要针对英语,限制了多语言和个性化应用。
- Re-RIGHT通过强化学习训练紧凑的策略模型,利用词汇覆盖率、语义保持和连贯性作为奖励,实现自适应文本简化。
- 实验表明,Re-RIGHT在多语言环境下,能以更高的词汇覆盖率和语义保持度,超越现有大型语言模型基线。
📝 摘要(中文)
本文提出Re-RIGHT,一个统一的强化学习框架,用于自适应多语言文本简化,无需平行语料库的监督。文本简化通过提供易于理解的输入来支持第二语言(L2)学习,这与输入假设一致。然而,构建个性化的平行语料库成本高昂,而现有的基于大型语言模型(LLM)的可读性控制方法依赖于预先标记的句子语料库,并且主要针对英语。研究表明,即使使用GPT-5.2和Gemini 2.5等最先进的LLM,基于提示的词汇简化在目标熟练程度级别(CEFR、JLPT、TOPIK和HSK)上,在较低级别和非英语语言上的表现也很差。为了解决这个问题,收集了跨四种语言(英语、日语、韩语和中文)的43K词汇级别数据,并使用Re-RIGHT训练了一个紧凑的4B策略模型,该模型集成了三个奖励模块:词汇覆盖率、语义保持和连贯性。与更强大的LLM基线相比,Re-RIGHT在保持原始含义和流畅性的同时,实现了更高的目标熟练程度级别的词汇覆盖率。
🔬 方法详解
问题定义:现有文本简化方法,特别是基于大型语言模型的方法,存在以下痛点:一是依赖于大规模平行语料库或预先标注的句子级别数据,构建成本高昂;二是主要集中在英语领域,对其他语言的支持不足;三是难以根据学习者的熟练程度进行个性化调整,导致简化效果不佳,尤其是在较低熟练程度级别和非英语语言中表现更差。
核心思路:Re-RIGHT的核心思路是利用强化学习,训练一个策略模型,使其能够根据目标语言学习者的熟练程度,自适应地进行文本简化。通过设计合适的奖励函数,引导模型在简化文本的同时,保持原文的语义信息和流畅性,并提高目标熟练程度级别的词汇覆盖率。这种方法避免了对大规模平行语料库的依赖,并且可以扩展到多种语言。
技术框架:Re-RIGHT框架主要包含以下几个模块:1) 数据收集模块:收集多语言的词汇级别数据,用于训练策略模型。2) 策略模型:使用一个紧凑的4B参数模型作为策略模型,负责生成简化后的文本。3) 奖励模块:包含三个奖励函数,分别是词汇覆盖率奖励、语义保持奖励和连贯性奖励。词汇覆盖率奖励鼓励模型使用目标熟练程度级别的词汇;语义保持奖励确保简化后的文本与原文意思相近;连贯性奖励保证生成文本的流畅性。4) 强化学习训练模块:使用强化学习算法(具体算法未知)训练策略模型,使其能够最大化累积奖励。
关键创新:Re-RIGHT的关键创新在于:1) 提出了一个统一的强化学习框架,用于多语言自适应文本简化,无需平行语料库的监督。2) 设计了三个奖励模块,分别从词汇覆盖率、语义保持和连贯性三个方面引导模型进行文本简化。3) 通过实验证明,Re-RIGHT在多语言环境下,能够以更高的词汇覆盖率和语义保持度,超越现有大型语言模型基线。
关键设计:论文中提到收集了43K词汇级别数据,并训练了一个4B参数的策略模型。奖励函数的设计是关键,包括:词汇覆盖率奖励(具体计算方法未知,但目标是提高目标熟练程度级别的词汇使用率)、语义保持奖励(具体计算方法未知,可能使用语义相似度计算方法)和连贯性奖励(具体计算方法未知,可能使用语言模型评估生成文本的流畅度)。强化学习算法的具体选择和参数设置未知。
🖼️ 关键图片
📊 实验亮点
Re-RIGHT在四种语言(英语、日语、韩语和中文)上进行了实验,结果表明,与GPT-5.2和Gemini 2.5等强大的LLM基线相比,Re-RIGHT在保持原始含义和流畅性的同时,实现了更高的目标熟练程度级别的词汇覆盖率。具体的性能提升数据未知,但整体效果优于现有LLM方法。
🎯 应用场景
Re-RIGHT框架可应用于在线教育平台,为不同语言水平的学习者提供个性化的阅读材料。该技术还可用于辅助语言学习APP,帮助用户更好地理解外语文章。此外,该框架还可应用于机器翻译后处理,提高翻译文本的可读性和流畅性,使其更易于理解。
📄 摘要(原文)
Text simplification supports second language (L2) learning by providing comprehensible input, consistent with the Input Hypothesis. However, constructing personalized parallel corpora is costly, while existing large language model (LLM)-based readability control methods rely on pre-labeled sentence corpora and primarily target English. We propose Re-RIGHT, a unified reinforcement learning framework for adaptive multilingual text simplification without parallel corpus supervision. We first show that prompting-based lexical simplification at target proficiency levels (CEFR, JLPT, TOPIK, and HSK) performs poorly at easier levels and for non-English languages, even with state-of-the-art LLMs such as GPT-5.2 and Gemini 2.5. To address this, we collect 43K vocabulary-level data across four languages (English, Japanese, Korean, and Chinese) and train a compact 4B policy model using Re-RIGHT, which integrates three reward modules: vocabulary coverage, semantic preservation, and coherence. Compared to the stronger LLM baselines, Re-RIGHT achieves higher lexical coverage at target proficiency levels while maintaining original meaning and fluency.