cs.LG（2026-01-07）

📊 共 18 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱二：RL算法与架构 (RL & Architecture) (10 🔗2) 支柱九：具身大模型 (Embodied Foundation Models) (5) 支柱八：物理动画 (Physics-based Animation) (3)

🔬 支柱二：RL算法与架构 (RL & Architecture) (10 篇)

#	题目	一句话要点	标签	🔗	⭐
1	EDCO: Dynamic Curriculum Orchestration for Domain-specific Large Language Model Fine-tuning	EDCO：动态课程编排微调领域大语言模型，提升学习效率	reinforcement learning curriculum learning large language model
2	ReLA: Representation Learning and Aggregation for Job Scheduling with Reinforcement Learning	提出ReLA，通过强化学习和结构化表示学习解决作业调度问题。	reinforcement learning representation learning
3	Cells on Autopilot: Adaptive Cell (Re)Selection via Reinforcement Learning	CellPilot：提出基于强化学习的自适应小区重选方法，提升移动网络性能。	reinforcement learning spatiotemporal
4	AMIR-GRPO: Inducing Implicit Preference Signals into GRPO	AMIR-GRPO：通过隐式偏好信号增强GRPO，提升LLM在复杂推理任务中的性能	reinforcement learning DPO large language model
5	Adaptive-Boundary-Clipping GRPO: Ensuring Bounded Ratios for Stable and Generalizable Training	提出自适应边界裁剪GRPO，提升LLM在数学推理任务中的稳定性和泛化性	reinforcement learning large language model	✅
6	ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization	提出ETR动态调整信任域，优化基于结果导向的强化学习策略。	reinforcement learning large language model
7	R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification	R$^3$L：结合语言引导探索、关键信用分配和正向放大，提升强化学习在复杂推理任务中的性能。	reinforcement learning	✅
8	TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL	TreeAdv：基于树结构优势重分配的组别强化学习方法	reinforcement learning large language model
9	Learning Shrinks the Hard Tail: Training-Dependent Inference Scaling in a Solvable Linear Model	提出LID模型分析末层微调，揭示训练如何影响泛化与推理缩放。	teacher-student distillation
10	VeRPO: Verifiable Dense Reward Policy Optimization for Code Generation	VeRPO：一种用于代码生成的基于可验证稠密奖励的策略优化方法	reinforcement learning reward design

🔬 支柱九：具身大模型 (Embodied Foundation Models) (5 篇)

#	题目	一句话要点	标签	🔗	⭐
11	Causal Data Augmentation for Robust Fine-Tuning of Tabular Foundation Models	CausalMixFT：利用因果数据增强提升表格型基础模型在低数据量下的微调鲁棒性	foundation model
12	A Comparative Study of Traditional Machine Learning, Deep Learning, and Large Language Models for Mental Health Forecasting using Smartphone Sensing Data	利用智能手机传感数据，对比传统机器学习、深度学习和LLM进行心理健康预测。	large language model
13	FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning	FOREVER：受遗忘曲线启发的语言模型持续学习记忆回放框架	large language model
14	ALERT: Zero-shot LLM Jailbreak Detection via Internal Discrepancy Amplification	ALERT：通过内部差异放大实现零样本LLM越狱检测	large language model
15	Variational Inference, Entropy, and Orthogonality: A Unified Theory of Mixture-of-Experts	从贝叶斯和信息论视角统一MoE理论，并提出正交正则化缓解路由难题。	large language model

🔬 支柱八：物理动画 (Physics-based Animation) (3 篇)

#	题目	一句话要点	标签	🔗	⭐
16	Robust Physics Discovery from Highly Corrupted Data: A PINN Framework Applied to the Nonlinear Schrödinger Equation	利用PINN框架，从高噪声数据中稳健地发现非线性薛定谔方程的物理参数	spatiotemporal
17	Disentangling Aleatoric and Epistemic Uncertainty in Physics-Informed Neural Networks. Application to Insulation Material Degradation Prognostics	提出异方差贝叶斯物理信息神经网络，用于电力变压器绝缘材料老化预测中的不确定性量化。	spatiotemporal
18	Local Intrinsic Dimensionality of Ground Motion Data for Early Detection of Complex Catastrophic Slope Failure	提出时空局部本征维度(stLID)方法，用于早期检测复杂灾难性滑坡	spatiotemporal

⬅️ 返回 cs.LG 首页 · 🏠 返回主页