cs.AI（2026-05-20）

📊 共 11 篇论文 | 🔗 1 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (6) 支柱二：RL算法与架构 (RL & Architecture) (4 🔗1) 支柱一：机器人控制 (Robot Control) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (6 篇)

#	题目	一句话要点	标签	🔗	⭐
1	Governance by Construction for Generalist Agents	CUGA：通过构建治理通用智能体，实现企业级应用中可预测、可审计和合规的行为。	generalist agent
2	PALS: Power-Aware LLM Serving for Mixture-of-Experts Models	PALS：面向混合专家模型的功耗感知LLM服务系统	large language model
3	Open-source LLMs administer maximum electric shocks in a Milgram-like obedience experiment	开源LLM在类米尔格拉姆服从实验中表现出过度服从权威的倾向	large language model
4	SURGE: An Event-Centric Social Media Sentiment Time Series Benchmark with Interaction Structure	SURGE：一个事件中心、包含交互结构的社交媒体情感时间序列基准	multimodal
5	AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions	AutoRPA：通过LLM驱动的代码合成，实现高效的GUI自动化	large language model
6	An Application-Layer Multi-Modal Covert-Channel Reference Monitor for LLM Agent Egress	提出多模态隐蔽信道参考监视器，用于检测和防御LLM Agent的数据泄露。	large language model

🔬 支柱二：RL算法与架构 (RL & Architecture) (4 篇)

#	题目	一句话要点	标签	🔗	⭐
7	PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models	PlanningBench：生成可扩展和可验证的规划数据，用于评估和训练大型语言模型	reinforcement learning large language model instruction following
8	Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment	提出CPO以解决DPO在特定条件下与RLHF目标不一致的问题，实现可证明对齐。	reinforcement learning RLHF DPO	✅
9	Enhanced Reinforcement Learning-based Process Synthesis via Quantum Computing	提出量子增强强化学习算法，用于提升流程合成问题的求解效率。	reinforcement learning
10	Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX	Mahjax：一款用于JAX强化学习的GPU加速麻将模拟器	reinforcement learning

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
11	Mind the Sim-to-Real Gap & Think Like a Scientist	提出Fisher-SEP算法，解决模拟器偏差下的强化学习Sim-to-Real问题	sim-to-real

⬅️ 返回 cs.AI 首页 · 🏠 返回主页