arXiv 中文要点汇总
🤖 cs.RO
机器人📊 领域分布
机器人控制 5549
RL算法与架构 918
具身大模型 685
空间感知与语义 626
物理动画 75
动作重定向 67
空间感知 65
生成式动作 55
视频提取与匹配 44
其他 13
交互与反应 8
📆 最近更新
📝 最新论文
- DySL-VLA: Efficient Vision-Language-Action Model Inference v...
DySL-VLA:基于动态-静态层跳跃的机器人操作高效视觉-语言-动作模型推理 - A Pragmatic VLA Foundation Model
LingBot-VLA:基于2万小时真实机器人数据的实用视觉-语言-动作基础模型 - SignBot: Learning Human-to-Humanoid Sign Language Interactio...
提出SignBot框架,实现人与人形机器人之间自然的手语交互 - SignVLA: A Gloss-Free Vision-Language-Action Framework for R...
提出SignVLA框架,实现基于手语的实时机器人操作控制 - Rethinking the Practicality of Vision-language-action Model:...
提出CEBench基准和LLaVA-VLA模型,提升VLA模型在机器人领域的实用...
👁️ cs.CV
视觉📊 领域分布
具身大模型 4228
RL算法与架构 2949
空间感知与语义 2944
机器人控制 867
视频提取与匹配 389
生成式动作 380
物理动画 334
空间感知 328
动作重定向 281
交互与反应 134
视频提取与匹配 6
其他 4
📆 最近更新
📝 最新论文
- Causal Motion Diffusion Models for Autoregressive Motion Gen...
提出因果运动扩散模型(CMDM),用于高质量、低延迟的自回归运动生成。 - EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Em...
EmbodMocap:提出一种基于双iPhone的便携式4D人-场景重建方法,用... - GigaBrain-0.5M*: a VLA That Learns From World Model-Based Re...
GigaBrain-0.5M*:一种基于世界模型的强化学习VLA模型,提升机器人... - Joint Optimization for 4D Human-Scene Reconstruction in the ...
提出JOSH,用于野外单目视频中4D人体-场景联合重建 - Bridging Geometric and Semantic Foundation Models for Genera...
BriGeS:融合几何与语义基础模型,提升单目深度估计性能
🎨 cs.GR
图形学📊 领域分布
空间感知与语义 244
机器人控制 88
具身大模型 60
生成式动作 55
RL算法与架构 43
物理动画 38
动作重定向 14
视频提取与匹配 12
空间感知 6
交互与反应 3
视频提取与匹配 1
📆 最近更新
📝 最新论文
- TopoEdit: Fast Post-Optimization Editing of Topology Optimiz...
TopoEdit:利用预训练拓扑模型实现快速拓扑优化结构编辑 - BRepMAE: Self-Supervised Masked BRep Autoencoders for Machin...
提出BRepMAE自监督框架,用于CAD模型加工特征识别。 - D3MAS: Decompose, Deduce, and Distribute for Enhanced Knowle...
D3MAS:通过分解、推导与分发增强多智能体系统中的知识共享 - HyperAgent: Leveraging Hypergraphs for Topology Optimization...
HyperAgent:利用超图优化多智能体通信拓扑,提升协作效率与任务适应性 - RAP: Real-time Audio-driven Portrait Animation with Video Di...
RAP:基于视频扩散Transformer的实时音频驱动人像动画
🧠 cs.LG
机器学习 (RL, Diffusion, World Model)📊 领域分布
RL算法与架构 4091
具身大模型 3732
机器人控制 464
物理动画 331
生成式动作 93
交互与反应 61
动作重定向 58
空间感知与语义 48
视频提取与匹配 22
空间感知 3
其他 1
📆 最近更新
📝 最新论文
- Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules...
Zatom-1:用于3D分子和材料的多模态流动基础模型,统一生成与预测任务。 - Understanding protein function with a multimodal retrieval-a...
提出PoET-2:一种多模态检索增强蛋白质基础模型,用于提升蛋白质功能理解。 - $ϕ$-DPO: Fairness Direct Preference Optimization Approach to...
提出$ϕ$-DPO框架以解决大规模多模态模型中的公平性问题 - BrepCoder: A Unified Multimodal Large Language Model for Mul...
提出BrepCoder,用于多任务B-rep推理的统一多模态大语言模型 - Reinforcement-aware Knowledge Distillation for LLM Reasoning
提出RLAD:一种强化学习感知的知识蒸馏方法,用于提升LLM推理能力。
🤔 cs.AI
人工智能 (Agents, Planning)📊 领域分布
具身大模型 5680
RL算法与架构 1876
机器人控制 375
物理动画 111
空间感知与语义 79
生成式动作 67
交互与反应 46
动作重定向 28
视频提取与匹配 25
空间感知 3
📆 最近更新
📝 最新论文
- DropVLA: An Action-Level Backdoor Attack on Vision--Language...
提出DropVLA,实现对Vision-Language-Action模型细粒度... - NoRD: A Data-Efficient Vision-Language-Action Model that Dri...
提出NoRD,一种数据高效的免推理端到端自动驾驶VLA模型 - Decoding the Hook: A Multimodal LLM Framework for Analyzing ...
提出基于多模态LLM的视频广告Hooking Period分析框架,提升广告效果... - SPM-Bench: Benchmarking Large Language Models for Scanning P...
SPM-Bench:针对扫描探针显微镜的大语言模型权威自动化评测基准 - RAGdb: A Zero-Dependency, Embeddable Architecture for Multim...
RAGdb:一种零依赖、可嵌入的边缘多模态RAG架构
💬 cs.CL
自然语言 (VLA, Text-to-Motion)📊 领域分布
具身大模型 11272
RL算法与架构 2158
机器人控制 196
视频提取与匹配 63
空间感知与语义 42
物理动画 30
生成式动作 25
动作重定向 22
交互与反应 13
空间感知 1
📆 最近更新
📝 最新论文
- Knowledge Distillation with Structured Chain-of-Thought for ...
提出Struct-SQL框架,利用结构化CoT蒸馏提升Text-to-SQL小模... - TCM-DiffRAG: Personalized Syndrome Differentiation Reasoning...
TCM-DiffRAG:基于知识图谱和思维链的中医个性化辨证论治方法 - A Mixture-of-Experts Model for Multimodal Emotion Recognitio...
提出MiSTER-E模型,通过混合专家机制解决对话情感识别中的多模态融合问题。 - Parallel Continuous Chain-of-Thought with Jacobi Iteration
提出基于Jacobi迭代的并行连续思维链PCCoT,加速LLM推理。 - Detecting Hate and Inflammatory Content in Bengali Memes: A ...
提出MCFM模型和Bn-HIB数据集,用于检测孟加拉语Meme中的仇恨和煽动性内...
⚙️ eess.SY
系统控制 (MPC, Dynamics)📊 领域分布
机器人控制 754
RL算法与架构 310
生成式动作 162
物理动画 138
具身大模型 121
交互与反应 18
空间感知与语义 7
动作重定向 5
其他 4
空间感知 3
视频提取与匹配 3
📆 最近更新
📝 最新论文
- Transformer Actor-Critic for Efficient Freshness-Aware Resou...
提出Transformer Actor-Critic算法,解决URLLC中新鲜度... - Signal Temporal Logic Verification and Synthesis Using Deep ...
提出基于深度可达性分析和分层控制架构的STL验证与综合框架 - Stealthy Sensor Attacks Against Direct Data-Driven Controlle...
针对直接数据驱动控制器的隐蔽传感器攻击研究 - FaultXformer: A Transformer-Encoder Based Fault Classificati...
FaultXformer:一种基于Transformer编码器的配电系统故障分类... - Transformer Actor-Critic for Efficient Freshness-Aware Resou...
提出基于Transformer Actor-Critic的资源分配方法,优化UR...