把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源


-
论文标题:GRAPE: Generalizing Robot Policy via Preference Alignment
-
论文链接:https://arxiv.org/abs/2411.19309
-
项目地址:https://grape-vla.github.io
-
代码地址:https://github.com/aiming-lab/GRAPE

-
GRAPE 在轨迹层面通过强化学习(RL)目标对 VLA 进行对齐,赋予模型全局决策能力,而不仅仅是简单的行为克隆;
-
GRAPE 隐式建模了成功和失败尝试中的奖励,从而提升对多样化任务的泛化能力;
-
GRAPE 采用可扩展的偏好合成算法。GRAPE 通过与任意目标对齐的偏好对轨迹进行排序,进而使得 VLA 模型能被对齐到设定的目标上。
(来源:机器之心)


