cs.LG（2024-09-05）

📊 共 17 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (8 🔗1) 支柱二：RL算法与架构 (RL & Architecture) (8 🔗1) 支柱一：机器人控制 (Robot Control) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (8 篇)

#	题目	一句话要点	标签	🔗	⭐
1	Visual Prompting in Multimodal Large Language Models: A Survey	对多模态大语言模型中的视觉提示方法进行全面综述，着重于视觉提示、生成、推理和学习。	large language model multimodal visual grounding
2	A Fused Large Language Model for Predicting Startup Success	提出一种融合的大语言模型，用于预测创业公司成功率，辅助投资者决策。	large language model
3	Learning in Order! A Sequential Strategy to Learn Invariant Features for Multimodal Sentiment Analysis	提出一种序列学习策略，用于多模态情感分析中学习不变特征。	multimodal
4	Privacy Bias in Language Models: A Contextual Integrity-based Auditing Metric	提出基于上下文完整性的度量方法，用于评估语言模型中的隐私偏见。	large language model
5	Safety vs. Performance: How Multi-Objective Learning Reduces Barriers to Market Entry	提出多目标学习以降低市场准入壁垒	large language model
6	Planning In Natural Language Improves LLM Search For Code Generation	PlanSearch：通过自然语言规划提升LLM代码生成搜索效率	large language model	✅
7	LLM-based event abstraction and integration for IoT-sourced logs	利用LLM进行物联网日志的事件抽象与集成，提升流程挖掘应用效果	large language model
8	Spindle: Efficient Distributed Training of Multi-Task Large Models via Wavefront Scheduling	Spindle：通过波前调度实现多任务大模型的高效分布式训练	foundation model

🔬 支柱二：RL算法与架构 (RL & Architecture) (8 篇)

#	题目	一句话要点	标签	🔗	⭐
9	On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization	DPO隐式奖励模型泛化性受限，不如显式奖励模型稳定	reinforcement learning RLHF DPO
10	Discovering Cyclists' Visual Preferences Through Shared Bike Trajectories and Street View Images Using Inverse Reinforcement Learning	提出基于逆强化学习的框架，通过共享单车轨迹和街景图像发现骑行者视觉偏好	reinforcement learning inverse reinforcement learning
11	Asynchronous Stochastic Approximation with Applications to Average-Reward Reinforcement Learning	扩展异步随机逼近算法，为平均奖励强化学习提供更广泛的收敛保证	reinforcement learning
12	Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron	提出非线性感知器学习动态分析框架，研究监督学习与强化学习差异	reinforcement learning
13	CHIRPs: Change-Induced Regret Proxy metrics for Lifelong Reinforcement Learning	提出CHIRP指标，预测环境变化对终身强化学习智能体性能的影响	reinforcement learning
14	ELO-Rated Sequence Rewards: Advancing Reinforcement Learning Models	提出基于ELO评分的序列奖励方法ERRL，解决长时程强化学习中的奖励函数设计难题。	reinforcement learning
15	Causal Temporal Representation Learning with Nonstationary Sparse Transition	提出CtrlNS框架，解决非平稳时间序列中因果关系学习对先验知识的依赖问题。	representation learning
16	Sparsifying Parametric Models with L0 Regularization	利用L0正则化稀疏化参数模型，应用于深度强化学习控制偏微分方程	reinforcement learning deep reinforcement learning	✅

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
17	Simplex-enabled Safe Continual Learning Machine	提出基于Simplex逻辑的安全持续学习机，用于安全攸关自主系统。	quadruped sim2real reinforcement learning

⬅️ 返回 cs.LG 首页 · 🏠 返回主页