用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上
-
论文地址:https://arxiv.org/pdf/2311.12015.pdf -
代码即将公开:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
-
在第一帧中没有任何东西被抓住,但在最后一帧中却有东西被抓住的片段表示发生了抓取。 -
在第一帧中有东西被握住,而在最后一帧中没有东西被握住的片段表示发生了释放。 -
其他片段则被归类为包含其他类型动作的片段。
-
抓取任务的能力:1)接近物体的方向信息,以避免与环境发生碰撞。2)抓取类型还包含人类如何有效的执行操作。 -
手部移动的能力:1)手移动过程中的航点信息,以避免环境碰撞。 -
释放任务的能力:1)释放物体后手的撤离方向信息,以避免环境碰撞。 -
拾取任务的能力:1)矢量化的离开方向信息,以尽量减少物体与平面之间不必要的力。 -
放置任务的能力:1)朝物体靠近方向的信息,以避免环境碰撞。 -
旋转任务的能力:1)旋转轴的方向。2) 旋转中心的位置。3)旋转角度。 -
滑动任务的能力:1)滑动运动的位移。 -
表面移动任务的能力:1)与表面垂直的轴。