cs.LG（2024-10-04）

📊 共 28 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱二：RL算法与架构 (RL & Architecture) (14 🔗2) 支柱九：具身大模型 (Embodied Foundation Models) (12) 支柱五：交互与反应 (Interaction & Reaction) (1) 支柱三：空间感知与语义 (Perception & Semantics) (1)

🔬 支柱二：RL算法与架构 (RL & Architecture) (14 篇)

#	题目	一句话要点	标签	🔗	⭐
1	Model-Based Reward Shaping for Adversarial Inverse Reinforcement Learning in Stochastic Environments	提出模型增强的对抗逆强化学习框架，提升随机环境下的样本效率	reinforcement learning inverse reinforcement learning reward shaping
2	Exploring the Limitations of Mamba in COPY and CoT Reasoning	分析Mamba在COPY操作和CoT推理中的局限性，揭示其在特定任务上的性能瓶颈。	Mamba linear attention large language model
3	MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents	提出MART：通过交互式学习微调MLLM作为检索器，提升具身智能体多模态检索性能	preference learning multimodal	✅
4	Predictive Coding for Decision Transformer	提出基于预测编码的决策Transformer（PCDT），提升离线目标条件RL任务性能	reinforcement learning policy learning offline reinforcement learning
5	Mitigating Adversarial Perturbations for Deep Reinforcement Learning via Vector Quantization	提出基于向量量化的输入转换方法，提升深度强化学习对抗扰动的鲁棒性	reinforcement learning deep reinforcement learning
6	Open-World Reinforcement Learning over Long Short-Term Imagination	提出LS-Imagine，通过长短期想象力提升开放世界强化学习的探索效率。	reinforcement learning world model affordance
7	SELU: Self-Learning Embodied MLLMs in Unknown Environments	提出SELU，通过自学习提升具身多模态大语言模型在未知环境中的理解与决策能力	reinforcement learning large language model multimodal
8	Demystifying the Token Dynamics of Deep Selective State Space Models	揭示深度选择性状态空间模型Token动态特性，并提出改进Mamba模型性能的新方法	Mamba SSM state space model
9	Spatial-Aware Decision-Making with Ring Attractors in Reinforcement Learning Systems	利用环形吸引子进行空间感知决策，提升强化学习系统性能	reinforcement learning deep reinforcement learning DRL
10	Mathematical Formalism for Memory Compression in Selective State Space Models	提出选择性门控机制，用于选择性状态空间模型中的记忆压缩，提升长序列建模效率。	SSM state space model
11	Learning Code Preference via Synthetic Evolution	提出CodeFavor框架，通过合成进化数据学习代码偏好，提升代码生成质量。	preference learning large language model
12	Robust Offline Imitation Learning from Diverse Auxiliary Data	提出ROIDA，解决离线模仿学习中利用多样辅助数据时的鲁棒性问题	imitation learning	✅
13	Elucidating the Design Choice of Probability Paths in Flow Matching for Forecasting	针对时序预测，提出新型概率路径Flow Matching模型，提升预测性能。	flow matching
14	Improving Node Representation by Boosting Target-Aware Contrastive Loss	提出Target-aware CL，通过目标感知对比学习提升节点表征质量	representation learning contrastive learning

🔬 支柱九：具身大模型 (Embodied Foundation Models) (12 篇)

#	题目	一句话要点	标签	🔗	⭐
15	Large Language Models can be Strong Self-Detoxifiers	提出SASA自律解码算法，无需额外奖励模型实现大语言模型的自我解毒。	large language model
16	Understanding Large Language Models in Your Pockets: Performance Study on COTS Mobile Devices	针对商用移动设备，研究人员对本地部署的大语言模型性能进行了全面评估。	large language model
17	A Probabilistic Perspective on Unlearning and Alignment for Large Language Models	提出基于概率视角的大语言模型不可学习与对齐评估框架，提升评估准确性。	large language model
18	Nested Deep Learning Model Towards A Foundation Model for Brain Signal Data	提出嵌套深度学习模型NDL，用于脑信号数据分析，辅助癫痫诊断。	foundation model
19	How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension	构建图模式理解基准，评估大语言模型在图模式挖掘中的能力	large language model
20	Remaining Useful Life Prediction: A Study on Multidimensional Industrial Signal Processing and Efficient Transfer Learning Based on Large Language Models	提出基于大语言模型的剩余寿命预测框架，提升工业系统可靠性。	large language model
21	Permissive Information-Flow Analysis for Large Language Models	提出一种针对大型语言模型的容错型信息流分析方法，解决信息泄露问题。	large language model
22	A Survey on LLM-based Code Generation for Low-Resource and Domain-Specific Programming Languages	针对低资源和领域特定编程语言，综述基于LLM的代码生成方法	large language model
23	Zebra: In-Context Generative Pretraining for Solving Parametric PDEs	Zebra：用于求解参数化偏微分方程的上下文生成式预训练模型	large language model
24	How Much Can We Forget about Data Contamination?	研究表明大规模训练可有效遗忘数据污染，缓解基准测试过拟合问题	large language model
25	In-context Learning in Presence of Spurious Correlations	针对虚假相关性的上下文学习，提出新训练方法提升分类任务性能	large language model
26	LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy	提出LoRC：一种基于低秩压缩和渐进压缩策略的LLM KV缓存压缩方法	large language model

🔬 支柱五：交互与反应 (Interaction & Reaction) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
27	Fine-Grained Expressive Power of Weisfeiler-Leman: A Homomorphism Counting Perspective	提出广义民间韦斯费勒-莱曼算法以提升图神经网络的表达能力	OMOMO

🔬 支柱三：空间感知与语义 (Perception & Semantics) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
28	Selective Test-Time Adaptation for Unsupervised Anomaly Detection using Neural Implicit Representations	提出选择性测试时自适应方法，利用神经隐式表示提升无监督异常检测效果	implicit representation

⬅️ 返回 cs.LG 首页 · 🏠 返回主页