cs.LG（2025-07-10）

📊 共 19 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱二：RL算法与架构 (RL & Architecture) (9) 支柱九：具身大模型 (Embodied Foundation Models) (7 🔗2) 支柱一：机器人控制 (Robot Control) (2) 支柱七：动作重定向 (Motion Retargeting) (1)

🔬 支柱二：RL算法与架构 (RL & Architecture) (9 篇)

#	题目	一句话要点	标签	🔗	⭐
1	"So, Tell Me About Your Policy...": Distillation of interpretable policies from Deep Reinforcement Learning agents	提出基于优势函数蒸馏的可解释强化学习策略，提升金融交易等领域应用。	reinforcement learning deep reinforcement learning DRL
2	CTRLS: Chain-of-Thought Reasoning via Latent State-Transition	提出CTRLS框架，通过潜在状态转移实现链式思考推理，提升LLM的推理能力	reinforcement learning large language model chain-of-thought
3	Latent Space Data Fusion Outperforms Early Fusion in Multimodal Mental Health Digital Phenotyping Data	提出基于潜在空间融合的抑郁症预测模型，优于传统早期融合方法	predictive model multimodal
4	EXPO: Stable Reinforcement Learning with Expressive Policies	EXPO：通过可表达策略实现稳定的强化学习	reinforcement learning imitation learning flow matching
5	Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions	提出分位数奖励策略优化(QRPO)，实现绝对奖励下的离线策略对齐。	PPO DPO large language model
6	Bradley-Terry and Multi-Objective Reward Modeling Are Complementary	提出联合训练框架，结合Bradley-Terry和多目标奖励建模，提升奖励模型泛化性和打分能力。	reinforcement learning RLHF large language model
7	BEAVER: Building Environments with Assessable Variation for Evaluating Multi-Objective Reinforcement Learning	提出BEAVER框架以解决建筑能效管理中的多目标强化学习问题	reinforcement learning policy learning
8	Space-Filling Regularization for Robust and Interpretable Nonlinear State Space Models	提出空间填充正则化方法，提升非线性状态空间模型的鲁棒性和可解释性	state space model
9	Principled Foundations for Preference Optimization	为偏好优化提供理论基础，揭示DPO与损失函数及随机选择理论的联系	DPO direct preference optimization

🔬 支柱九：具身大模型 (Embodied Foundation Models) (7 篇)

#	题目	一句话要点	标签	🔗	⭐
10	ALCo-FM: Adaptive Long-Context Foundation Model for Accident Prediction	提出ALCo-FM自适应长上下文模型，用于提升交通事故预测的准确性和可靠性。	foundation model multimodal	✅
11	Towards Benchmarking Foundation Models for Tabular Data With Text	提出文本表格数据基准测试方法，评估现有表格数据预训练模型性能	foundation model
12	Deep Survival Analysis in Multimodal Medical Data: A Parametric and Probabilistic Approach with Competing Risks	提出SAMVAE，一种用于多模态医学数据生存分析的参数化概率深度学习框架，支持竞争风险建模。	multimodal
13	GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing	GuardVal：动态大语言模型越狱评估，实现全面安全测试	large language model
14	Low-rank Momentum Factorization for Memory Efficient Training	提出MoFaSGD以解决大模型微调中的内存效率问题	large language model foundation model	✅
15	Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs	提出CoLa：一种无需微调的LLM测试时深度自适应方法，提升推理效率与准确性	large language model
16	Dynamic Chunking for End-to-End Hierarchical Sequence Modeling	提出动态分块的端到端层级序列建模方法H-Net，无需tokenization即可提升语言模型性能。	foundation model

🔬 支柱一：机器人控制 (Robot Control) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
17	Reinforcement Learning with Action Chunking	提出Q-chunking，通过动作分块提升离线到在线强化学习的样本效率	manipulation reinforcement learning imitation learning
18	Resolving Token-Space Gradient Conflicts: Token Space Manipulation for Transformer-Based Multi-Task Learning	提出DTME-MTL，通过token空间操作解决Transformer多任务学习中的梯度冲突问题。	manipulation

🔬 支柱七：动作重定向 (Motion Retargeting) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
19	ST-GRIT: Spatio-Temporal Graph Transformer For Internal Ice Layer Thickness Prediction	提出ST-GRIT时空图Transformer，用于预测冰雷达图像中的冰层厚度	spatial relationship spatiotemporal

⬅️ 返回 cs.LG 首页 · 🏠 返回主页