Right at My Level: A Unified Multilingual Framework for Proficiency-Aware Text Simplification

作者: Jinhong Jeong, Junghun Park, Youngjae Yu

分类: cs.CL

发布日期: 2026-04-07

备注: Accepted to ACL 2026

💡 一句话要点

提出Re-RIGHT框架，无需平行语料库即可实现多语言自适应文本简化。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本简化 强化学习 多语言 自适应学习 自然语言处理

📋 核心要点

现有文本简化方法依赖平行语料库或预标记数据，成本高昂且主要针对英语，限制了多语言和个性化应用。
Re-RIGHT通过强化学习训练紧凑的策略模型，利用词汇覆盖率、语义保持和连贯性作为奖励，实现自适应文本简化。
实验表明，Re-RIGHT在多语言环境下，能以更高的词汇覆盖率和语义保持度，超越现有大型语言模型基线。

📝 摘要（中文）

本文提出Re-RIGHT，一个统一的强化学习框架，用于自适应多语言文本简化，无需平行语料库的监督。文本简化通过提供易于理解的输入来支持第二语言（L2）学习，这与输入假设一致。然而，构建个性化的平行语料库成本高昂，而现有的基于大型语言模型（LLM）的可读性控制方法依赖于预先标记的句子语料库，并且主要针对英语。研究表明，即使使用GPT-5.2和Gemini 2.5等最先进的LLM，基于提示的词汇简化在目标熟练程度级别（CEFR、JLPT、TOPIK和HSK）上，在较低级别和非英语语言上的表现也很差。为了解决这个问题，收集了跨四种语言（英语、日语、韩语和中文）的43K词汇级别数据，并使用Re-RIGHT训练了一个紧凑的4B策略模型，该模型集成了三个奖励模块：词汇覆盖率、语义保持和连贯性。与更强大的LLM基线相比，Re-RIGHT在保持原始含义和流畅性的同时，实现了更高的目标熟练程度级别的词汇覆盖率。

🔬 方法详解

问题定义：现有文本简化方法，特别是基于大型语言模型的方法，存在以下痛点：一是依赖于大规模平行语料库或预先标注的句子级别数据，构建成本高昂；二是主要集中在英语领域，对其他语言的支持不足；三是难以根据学习者的熟练程度进行个性化调整，导致简化效果不佳，尤其是在较低熟练程度级别和非英语语言中表现更差。

核心思路：Re-RIGHT的核心思路是利用强化学习，训练一个策略模型，使其能够根据目标语言学习者的熟练程度，自适应地进行文本简化。通过设计合适的奖励函数，引导模型在简化文本的同时，保持原文的语义信息和流畅性，并提高目标熟练程度级别的词汇覆盖率。这种方法避免了对大规模平行语料库的依赖，并且可以扩展到多种语言。

技术框架：Re-RIGHT框架主要包含以下几个模块：1) 数据收集模块：收集多语言的词汇级别数据，用于训练策略模型。2) 策略模型：使用一个紧凑的4B参数模型作为策略模型，负责生成简化后的文本。3) 奖励模块：包含三个奖励函数，分别是词汇覆盖率奖励、语义保持奖励和连贯性奖励。词汇覆盖率奖励鼓励模型使用目标熟练程度级别的词汇；语义保持奖励确保简化后的文本与原文意思相近；连贯性奖励保证生成文本的流畅性。4) 强化学习训练模块：使用强化学习算法（具体算法未知）训练策略模型，使其能够最大化累积奖励。

关键创新：Re-RIGHT的关键创新在于：1) 提出了一个统一的强化学习框架，用于多语言自适应文本简化，无需平行语料库的监督。2) 设计了三个奖励模块，分别从词汇覆盖率、语义保持和连贯性三个方面引导模型进行文本简化。3) 通过实验证明，Re-RIGHT在多语言环境下，能够以更高的词汇覆盖率和语义保持度，超越现有大型语言模型基线。

关键设计：论文中提到收集了43K词汇级别数据，并训练了一个4B参数的策略模型。奖励函数的设计是关键，包括：词汇覆盖率奖励（具体计算方法未知，但目标是提高目标熟练程度级别的词汇使用率）、语义保持奖励（具体计算方法未知，可能使用语义相似度计算方法）和连贯性奖励（具体计算方法未知，可能使用语言模型评估生成文本的流畅度）。强化学习算法的具体选择和参数设置未知。

🖼️ 关键图片

📊 实验亮点

Re-RIGHT在四种语言（英语、日语、韩语和中文）上进行了实验，结果表明，与GPT-5.2和Gemini 2.5等强大的LLM基线相比，Re-RIGHT在保持原始含义和流畅性的同时，实现了更高的目标熟练程度级别的词汇覆盖率。具体的性能提升数据未知，但整体效果优于现有LLM方法。

🎯 应用场景

Re-RIGHT框架可应用于在线教育平台，为不同语言水平的学习者提供个性化的阅读材料。该技术还可用于辅助语言学习APP，帮助用户更好地理解外语文章。此外，该框架还可应用于机器翻译后处理，提高翻译文本的可读性和流畅性，使其更易于理解。

📄 摘要（原文）

Text simplification supports second language (L2) learning by providing comprehensible input, consistent with the Input Hypothesis. However, constructing personalized parallel corpora is costly, while existing large language model (LLM)-based readability control methods rely on pre-labeled sentence corpora and primarily target English. We propose Re-RIGHT, a unified reinforcement learning framework for adaptive multilingual text simplification without parallel corpus supervision. We first show that prompting-based lexical simplification at target proficiency levels (CEFR, JLPT, TOPIK, and HSK) performs poorly at easier levels and for non-English languages, even with state-of-the-art LLMs such as GPT-5.2 and Gemini 2.5. To address this, we collect 43K vocabulary-level data across four languages (English, Japanese, Korean, and Chinese) and train a compact 4B policy model using Re-RIGHT, which integrates three reward modules: vocabulary coverage, semantic preservation, and coherence. Compared to the stronger LLM baselines, Re-RIGHT achieves higher lexical coverage at target proficiency levels while maintaining original meaning and fluency.

Right at My Level: A Unified Multilingual Framework for Proficiency-Aware Text Simplification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理