灵初智能发布端到端VLA模型Psi R0.5,仅需两小时数据实现物品、场景全面泛化


-
High-level Planner:高层规划由预训练的大型视觉语言模型(VLM)实现,可理解多样化指令、自主决定抓取策略。
-
Low-level Controller:低层扩散策略通过实时视觉反馈,闭环掌握目标物体,智能涌现出灵巧操作能力。

-
根据语言指令分辨出目标物体,处理堆叠场景下的目标物体的检索并抓取
-
抓取速度快(所有视频无加速,同类工作中节拍较快),闭环姿态矫正与重抓取能力(ReGrasp)
-
大脑具有 CoT 长程推理能力:自主推理抓取顺序并将所有物体依次抓取




-
网站:https://dexgraspvla.github.io/
-
论文:https://arxiv.org/abs/2502.20900
-
代码:https://github.com/Psi-Robot/DexGraspVLA




-
论文:https://arxiv.org/abs/2502.18423
-
网站:https://changwinde.github.io/RetrDex/

-
网站:https://tangty11.github.io/ExDex/



-
网站:https://sites.google.com/view/pku-safevla
(来源:机器之心)