cs.LG（2024-06-26）

📊 共 21 篇论文 | 🔗 3 篇有代码

🎯 兴趣领域导航

支柱二：RL算法与架构 (RL & Architecture) (10 🔗1) 支柱九：具身大模型 (Embodied Foundation Models) (9 🔗2) 支柱一：机器人控制 (Robot Control) (2)

🔬 支柱二：RL算法与架构 (RL & Architecture) (10 篇)

#	题目	一句话要点	标签	🔗	⭐
1	Preference Elicitation for Offline Reinforcement Learning	提出Sim-OPRL算法，解决离线偏好强化学习中偏好反馈获取难题	reinforcement learning offline RL offline reinforcement learning
2	Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs	Step-DPO：面向LLM长链推理的分步偏好优化方法	DPO direct preference optimization large language model	✅
3	Breaking the Barrier: Enhanced Utility and Robustness in Smoothed DRL Agents	提出S-DQN和S-PPO，提升平滑DRL智能体的效用性和鲁棒性	reinforcement learning deep reinforcement learning DRL
4	CREMA: A Contrastive Regularized Masked Autoencoder for Robust ECG Diagnostics across Clinical Domains	CREMA：一种对比正则化掩码自编码器，用于跨临床领域的稳健心电图诊断	masked autoencoder MAE foundation model
5	Mental Modeling of Reinforcement Learning Agents by Language Models	利用语言模型对强化学习智能体进行心理建模，探索其行为理解能力	reinforcement learning large language model
6	Mixture of Experts in a Mixture of RL settings	在多任务强化学习中利用专家混合模型提升非平稳环境适应性	reinforcement learning deep reinforcement learning DRL
7	Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control	提出基于内在激励反馈图的强化学习方法，提升缺货库存控制的样本效率。	reinforcement learning
8	PDFA Distillation via String Probability Queries	提出基于字符串概率查询的PDFA蒸馏算法，用于从神经网络中提取可解释模型。	distillation
9	Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies	提出双向可达分层强化学习算法BrHPO，解决传统HRL单向依赖问题。	reinforcement learning
10	Combining Automated Optimisation of Hyperparameters and Reward Shape	提出超参数与奖励函数联合优化方法，提升强化学习在复杂任务中的性能与稳定性。	reinforcement learning deep reinforcement learning

🔬 支柱九：具身大模型 (Embodied Foundation Models) (9 篇)

#	题目	一句话要点	标签	🔗	⭐
11	WV-Net: A foundation model for SAR WV-mode satellite imagery trained using contrastive self-supervised learning on 10 million images	WV-Net：基于对比自监督学习的SAR WV模式卫星图像基础模型，使用1000万张图像训练。	foundation model
12	ADO-LLM: Analog Design Bayesian Optimization with In-Context Learning of Large Language Models	ADO-LLM：结合大语言模型上下文学习的模拟电路设计贝叶斯优化	large language model
13	A Review of Large Language Models and Autonomous Agents in Chemistry	综述：大型语言模型与自主智能体在化学领域的应用与发展	large language model	✅
14	A Survey on Mixture of Experts in Large Language Models	对大型语言模型中混合专家模型（MoE）的综述，旨在系统性地回顾和分类MoE方法。	large language model	✅
15	MolFusion: Multimodal Fusion Learning for Molecular Representations via Multi-granularity Views	提出MolFusion，通过多粒度视图融合学习分子表示，提升药物性质预测。	multimodal
16	Foundational Models for Pathology and Endoscopy Images: Application for Gastric Inflammation	利用病理和内窥镜图像的基础模型辅助胃部炎症诊断	foundation model multimodal
17	Learning to Correct for QA Reasoning with Black-box LLMs	提出CoBB方法，通过训练适配模型提升黑盒LLM的QA推理能力	large language model
18	Few-shot Personalization of LLMs with Mis-aligned Responses	提出Fermi，利用少量样本和偏差响应实现LLM的个性化定制	large language model
19	RouteLLM: Learning to Route LLMs with Preference Data	RouteLLM：利用偏好数据学习路由LLM，优化成本与性能的平衡	large language model

🔬 支柱一：机器人控制 (Robot Control) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
20	Adversarial Search Engine Optimization for Large Language Models	提出针对大语言模型的对抗性搜索引擎优化攻击，操纵LLM偏好选择。	manipulation large language model
21	Jailbreaking LLMs with Arabic Transliteration and Arabizi	利用阿拉伯语音译和Arabizi破解大型语言模型	manipulation large language model

⬅️ 返回 cs.LG 首页 · 🏠 返回主页